Jason Blog

전체 글

[Paper Review] Denoising Diffusion Probabilistic Models 논문 리뷰 2024.05.26
[내돈내산] 경복궁역 브런치 애즈라이크 리뷰 2024.05.19
[내돈내산] 서울대입구역 양식 문득 리뷰 2024.05.11
[Paper Review] Texture Synthesis Using Convolutional Neural Networks 논문 리뷰 2024.05.08
[내돈내산] 성복역 일식 가츠라 롯데몰 수지점 리뷰 2024.05.05
[내돈내산] 안국역 일식 프루 리뷰 2024.04.07 1
[내돈내산] 여의도역 중식 모던눌랑 여의도점 리뷰 2024.03.29 3
[내돈내산] 한강진역 양식 그릴도하 한남 리뷰 2024.03.24 1
[내돈내산] 양재시민의숲역 돈까스 수작카츠 양재점 리뷰 2024.03.16
[Paper Review] Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases 논문 리뷰 2024.03.06 2

[Paper Review] Denoising Diffusion Probabilistic Models 논문 리뷰

jasonlee1995 2024. 5. 26. 04:03

2024. 5. 26. 04:03

Paper Info

Accepted on NeurIPS 2020
Authors: Jonathan Ho, Ajay Jain, Pieter Abbeel
Affiliation: UC Berkeley
arXiv link: https://arxiv.org/abs/2006.11239
Task: image generation
TLDR: diffusion probabilistic model로 high quality image 생성 가능

1. Background

diffusion probabilistic model from paper

Generative adversarial networks (GANs), autoregressive models, flows, variational autoencoders (VAEs) 등을 통해 image, audio를 잘 생성할 수 있으며, 각 분야는 연구가 계속되고 있었음

그에 반해 diffusion probabilistic model (= diffusion model)은 정의하기도 쉽고 학습하기도 쉬운데, 해당 분야에 대한 연구가 이뤄지지 않고 있음

즉, diffusion model이 high quality samples를 생성할 수 있는 지?에 대한 물음에 대한 답이 논문의 motivation임

+ 참고

diffusion probabilistic model from YouTube

Diffusion을 알기 위해 ICML 2015에 accept된 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 논문을 직접 읽기보다는, 저자가 설명한 영상 앞부분만 봐도 대충 감 잡는데는 도움이 됨

핵심은 forward process에 대한 reverse process를 Gaussian으로 모델링할 수 있다는 것

2. Method

2.1. Training

Model input : perturbed image x, timestep t
Model output : image x를 perturb하는데 사용된 noise에 대한 prediction (noise를 predict)
Objective : image x를 perturb한 noise와 predicted noise 간의 L2 loss

전반적으로 original diffusion model과 꽤 차이가 있다보니, 2가지 의문점이 드는 것이 자연스러움

Objective가 왜 저렇게 되는지?
Model input을 어떻게 넣어주는지?

2.1.1. Objective

Likelihood를 위와 같이 수식적으로 잘 만져서, 최종적으로 Equation 5를 maximize하면 likelihood가 maximize된다고 보면 됨

(Equation 5가 결국 objective가 됨)

Loss는 총 3가지 항이 있음 → prior matching, denoising, reconstruction

1. Prior matching

Forward process의 variance를 constant로 fix하여 prior matching term을 날릴 수 있음

2. Denoising

Denoising term의 본질은 multivariate Gaussian distribution간의 KL divergence이기에, Equation 8로 표현할 수 있음

Equation 8을 수식적으로 잘 만져주면, Equation 12 식이 나오게 됨

Equation 12 앞에 있는 곱해주는 term을 1로 두어, simplified loss인 Equation 14로 학습

(이는 구현의 편의성+ sample quality에 더 좋았기에 사용했다고 함)

참고로 곱해주는 term을 1로 두게 되면 timestep t가 작을수록 loss를 down-weight하는 의미를 가지게 됨

즉, simplified loss로 학습함으로써 모델은 more difficult denoising task인 larger timestep t에 focus하게 됨

3. Reconstruction

실제 input image는 pixel space인 [0, 255]로 discrete함

Discrete log-likelihood를 계산하기 위해, Gaussian discrete decoder를 사용

식이 되게 복잡해보이는데, case로 쪼개서 보면 별거 아님 ㅇㅇ

논문에도 나와있듯이, Gaussian discrete decoder 말고 다른걸 사용해도 됨

2.1.2. Model Input

전반적인 모델 구조로는 Wide ResNet backbone의 U-Net을 조금 변형해서 사용

(group normalization, self-attention, drop-out 등의 변형이 있지만 자세하기 짚지 않고 넘어감)

사실상 image를 input으로 넣는 것은 익숙하다보니 넘어가는데, timestep t를 어떻게 넣어줘야하는 지가 관건

결론만 말하자면, Transformer sinusoidal position embedding + MLP를 거쳐서 Conv block 안에 잘 넣어줌

timestep embedding code from Reference 1

add timestep embedding in Conv block code from Reference 1

2.2. Inference

N(0, I)에서 x_T sample해서 timestep을 줄여가면서 image generation하면 됨

여기서 의문이 들 수 있는 포인트라고 하면 x_{t-1}을 왜 저렇게 구하는지? 정도일 듯함

x_t에 noise를 뺀 다음 보정하는 식은 Equation 11을 참고하면 이해할 수 있음

sigma를 어떻게 선택하는지는 forward process에서 사용했던 variance를 사용하거나 Equation 7에서의 값을 사용하면 됨

(논문에서는 어떤 sigma를 선택하든 비슷한 결과를 냈다고 함)

4. Conclusions

The author's conclusions

장점 2가지

1. diffusion model로 high-quality image를 generation할 수 있음

2. diffusion model을 학습할 때, 특별한 어려움이 없음

단점 2가지

1. image generation 속도가 너무 느림

2. negative log likelihood (lossless codelength)가 다른 likelihood model에 비해 안좋음

2번의 이유에 대해서는 diffusion model 자체가 excellent lossy compressor에 대한 inductive bias가 있다라고 표현

(자세한 내용은 Section 4.3 참고)

My Conclusion

수학적으로 어렵진 않지만 볼게 있다보니, 메인 흐름을 놓치기가 쉬운것 같음

또한 적당히 empirical하게 퉁치고 넘어가는 부분도 있긴 하다만, 기존의 연구인 NCSN과의 연관성, 결국은 좋은 performance를 냈다는 점 등은 좋게 생각하며 재미있게 읽었음

Rating

Good

Extra

Reference 1: Author official tensorflow code (https://github.com/hojonathanho/diffusion/)
Reference 2: DDPM explain YouTube (https://www.youtube.com/watch?v=vu6eKteJWew)

'논문 리뷰 > AI' 카테고리의 다른 글

[Paper Review] Texture Synthesis Using Convolutional Neural Networks 논문 리뷰 (0)	2024.05.08
[Paper Review] Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases 논문 리뷰 (2)	2024.03.06
[Paper Review] Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks 논문 리뷰 (0)	2024.02.21
[Paper Review] Stable Bias: Evaluating Societal Representations in Diffusion Models 논문 리뷰 (0)	2024.02.03

[내돈내산] 경복궁역 브런치 애즈라이크 리뷰

jasonlee1995 2024. 5. 19. 22:50

2024. 5. 19. 22:50

오늘 방문한 식당은애즈라이크입니다.
내돈내산 리뷰 바로 시작합니다.

방문 날짜

2024.05.11 (토) 런치

한줄평

분위기 좋은 무난한 브런치

재방문의사

경복궁 근처에서 브런치를 먹고 싶으면 방문할 듯

별점요약

1. 맛 : 4/5
2. 위생 : 5/5
3. 가격 : 4/5
4. 분위기 : 4/5
5. 편의시설 : 5/5

1. 맛

(1) 리코타 베이컨 샌드위치 / (2) 치폴레 닭가슴살 치아바타 샌드위치 / (3) 고구마 스프

메뉴별 맛 별점

리코타 베이컨 샌드위치 : 4/5 (추천)
치폴레 닭가슴살 치아바타 샌드위치 : 4/5 (추천)

고구마 스프 : 3/5 (추천 X)

리코타 베이컨 샌드위치 (추천)

밸런스가 잘맞는 브런치 한상입니다.

스크램블 에그가 크리미하고 약간 느끼할 수 있는데 썬드라이즈 토마토와 루꼴라를 곁들인 샌드위치를 먹으면 초기화됩니다.

베이컨이 살짝 간이 있긴하다만, 감자가 또 간이 강하지 않아 전반적인 밸런스가 잘 맞다고 생각되었습니다.

치폴레 닭가슴살 치아바타 샌드위치 (추천)

약간 매콤하긴 하지만, 충분히 건강한 맛의 치아바타 샌드위치입니다.

닭가슴살도 퍽퍽하지 않고, 닭비린내도 나지 않아 좋습니다.

고구마 스프 (추천 X)

따뜻한 스프가 찾겨서 시켰는데, 맛이 좀 달아서 식사 전에 먹으면 다른 음식의 맛이 잘 안느껴질 것 같습니다.

식사 후에 시킨다면 어울릴 수 있을 것 같습니다.

2. 위생

전반적으로 위생 상태는 매우 깔끔했습니다.

여름이라 슬슬 날이 더워짐에도 불구하고 초파리 같은 벌레도 안보였고, 다른 식기류의 상태도 깔끔했습니다.

위생은 걱정하지 않아도 될 것 같습니다.

3. 가격

양이 적어보이는데, 먹다보면 생각외로 배가 부르다보니 비싸다고 느껴지진 않았습니다.

메뉴 3개 (리코타 베이컨 샌드위치 13,500 + 치폴레 닭가슴살 치아바타 샌드위치 14,000 + 고구마 스프 7,000)해서 34,500원 나왔습니다.

4. 분위기

브런치 가게이다보니, 확실히 분위기 자체는 좋았습니다.

창도 나있다보니 답답한 느낌도 없고 대화하기에도 좋았습니다.

5. 편의시설

남녀 화장실 구분
물 셀프, 식기류는 테이블에 세팅되어있음

'음식 리뷰' 카테고리의 다른 글

[내돈내산] 서울대입구역 양식 문득 리뷰 (0)	2024.05.11
[내돈내산] 성복역 일식 가츠라 롯데몰 수지점 리뷰 (0)	2024.05.05
[내돈내산] 안국역 일식 프루 리뷰 (1)	2024.04.07
[내돈내산] 여의도역 중식 모던눌랑 여의도점 리뷰 (3)	2024.03.29
[내돈내산] 한강진역 양식 그릴도하 한남 리뷰 (1)	2024.03.24

[내돈내산] 서울대입구역 양식 문득 리뷰

jasonlee1995 2024. 5. 11. 23:09

2024. 5. 11. 23:09

오늘 방문한 식당은문득입니다.
내돈내산 리뷰 바로 시작합니다.

방문 날짜

2024.05.06 (월) 런치

한줄평

가성비 좋은 양식집

재방문의사

서울대입구 근처에서 적당한 퓨전 양식집을 찾는다면 재방문할듯?

별점요약

1. 맛 : 4/5
2. 위생 : 5/5
3. 가격 : 4/5
4. 분위기 : 4/5
5. 편의시설 : 3/5

1. 맛

메뉴별 맛 별점

데미 돈마호크 커틀렛 : 4/5 (추천)

베이컨 청양 크림파스타 : 4/5 (추천)

데미 돈마호크 커틀렛 (추천)

고기가 질기지 않아 잘 썰리며, 양도 제법 되고, 적당히 바삭합니다.

하지만 입천장이 까질 정도의 바삭함은 없으니, 이를 기대하고 시키면 다소 아쉬울 것 같습니다.

베이컨 청양 크림파스타 (추천)

기본 맵기는 신라면 정도로, 맵기를 조절할 수 있습니다.

청양 고추로 매운맛을 내서 그런지, 뒷맛이 깔끔하게 매웠으며 속이 아리지 않았습니다.

크림 파스타를 평소에 느끼해서 많이 먹지 못한 분들은, 맛있게 먹을 수 있을 것 같습니다.

2. 위생

가게 안이 작다보니, 전반적으로 위생 상태는 매우 깔끔했습니다.
여름이라 슬슬 날이 더워짐에도 불구하고 초파리 같은 벌레도 안보였고, 다른 식기류의 상태도 깔끔했습니다.
위생은 걱정하지 않아도 될 것 같습니다.

3. 가격

양이 제법 되기에, 전반적으로 가격이 비싸다고 생각되진 않았습니다.
메뉴 2개 (데미 돈마호크 커틀렛 + 베이컨 청양 크림파스타)해서 총 36,500원 나왔습니다.

4. 분위기

가게 안이 좁다보니, 약간의 답답함은 있었습니다.

적당히 양식 먹기엔 나쁘진 않지만, 분위기를 내기엔 적합하지 않은 것 같습니다.

5. 편의시설

화장실 존재 (가게 내에 존재 X)
식기, 휴지 등은 테이블마다 기본 세팅
물은 종업원 분이 직접 따라주는 형태

'음식 리뷰' 카테고리의 다른 글

[내돈내산] 경복궁역 브런치 애즈라이크 리뷰 (0)	2024.05.19
[내돈내산] 성복역 일식 가츠라 롯데몰 수지점 리뷰 (0)	2024.05.05
[내돈내산] 안국역 일식 프루 리뷰 (1)	2024.04.07
[내돈내산] 여의도역 중식 모던눌랑 여의도점 리뷰 (3)	2024.03.29
[내돈내산] 한강진역 양식 그릴도하 한남 리뷰 (1)	2024.03.24

[Paper Review] Texture Synthesis Using Convolutional Neural Networks 논문 리뷰

jasonlee1995 2024. 5. 8. 18:53

2024. 5. 8. 18:53

Paper Info

Accepted on NIPS 2015
Authors: Leon A. Gatys, Alexander S. Ecker, Matthias Bethge
Affiliation: University of Tubingen
arXiv link: https://arxiv.org/abs/1505.07376
OpenReview link: https://papers.nips.cc/paper_files/paper/2015/hash/a5e00132373a7031000fd987a3c9f87b-Abstract.html
Task: texture generation
TLDR: object recognition task에 optimize된 CNN의 feature map에 대한 Gram matrix를 이용하여 texture generation

1. Brief Summary

Source image에 대해, 다음과 같은 방법을 통해 texture generation

1. Source image에 대한 CNN의 각 layer별 output을 구함

2. 1번에서 구한 output에 대해 Gram matrix를 계산

3. Random noise image에 대한 CNN의 각 layer별 output을 구함

4. 3번에서 구한 output에 대해 Gram matrix를 계산

5. 2번, 4번에서 구한 Gram matrix간의 mean-squared distance가 minimize되도록 random noise image update

2. Why Gram matrix?

해당 논문을 찬찬히 살펴보면 생각해볼 점들이 꽤 많음

(ex. CNN에서 spatial dimension을 맞춰주기 위한 zero padding이 야기할 수 있는 문제점 등)

하지만 가장 중요한 점은 왜 Gram matix를 쓰는지가 제일 중요한 key point라고 생각하기에, 이만 짚고 넘어감

먼저, 저자들이 reference로 삼은 previous work에서는 다음과 같은 방법으로 source image로부터 texture을 생성함

1. extract features of different sizes homogeneously from the source image

2. compute a spatial summary statistic on the feature responses to obtain a stationary description of the source image
3. find a new image with the same stationary description by performing gradient descent on a random image

기존 연구에서는 linear filter bank + carefully chosen summary statistics를 사용한 반면,

해당 논문은 CNN을 통해 구한 feature space + only one spatial summary statistic을 사용함

여기서 spatial summary statistic으로 feature responses간의 correlation을 이용

(feature responses간의 correlation = layer output의 Gram matrix, 용어의 정의로 따지자면 다른데 중요하지 않기에 넘어감)

그렇다면 spatial summary statistic으로 왜 Gram matrix를 사용하는지?만 이해하면 됨

Texture는 definition에 따라 stationary해야하기에, spatial information에 agnostic해야함

(Textures are per definition stationary, so a texture model needs to be agnostic to spatial information)

CNN을 통해 구한 feature responses는 spatial information을 가지고 있기에, 이들간의 correlations를 사용하여 spatial information을 날린다...라고 생각하면 됨.

즉, spatial summary statistic의 수단으로 Gram matrix를 사용한 것이지 'Gram matrix = texture'라고 생각하는 것은 잘못된 것

다시 한번 정리하자면

1. Texture의 정의상 stationary해야함 → spatial information에 agnostic해야함

2. CNN의 layer output인 feature responses는 spatial information을 가지고 있음

3. Spatial information 지우기 위해 feature responses간의 correlations (Gram matrix)를 이용함

(여기서 spatial information을 지우기 위해 다양한 방법들이 존재할 수 있으며, 해당 논문에서는 Gram matrix를 사용)