Paper Info

  • Accepted on ICLR 2024 Spotlight
  • Authors: Hao Chen, Jindong Wang, Ankit Shah, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama, Bhiksha Raj
  • Affiliation: Carnegie Mellon University, Microsoft Research Asia, SusTech, RIKEN AIP, The University of Tokyo, Mohamed bin Zayed University of AI
  • arXiv link: https://arxiv.org/abs/2309.17002
  • OpenReview link: https://openreview.net/forum?id=TjhUtloBZU
  • Task: pre-training dataset의 label noise로 인해 생기는 pre-trained model의 downstream task에서의 성능 저하를 mitigate
    - Observation: pre-training의 slight label noise는 in-domain에 도움이 되지만, out-of-domain에는 악영향을 끼침
    - Analysis: SVE가 적당히 커서 slight label noise가 in-domain에 좋으며, label noise가 커질수록 LSVR이 커지기에 out-of-domain에 악영향을 끼침
    - Mitigation: SVE가 커지도록 + LSVR이 작아지는 loss로 MLP를 학습하여, pre-training label noise의 downstream task에 대한 negative impact를 mitigate
  • TLDR: singular value spectrum을 이용하여 observation 분석 + 이를 이용한 loss로 mitigation

1. Observation

Pre-trained foundation model을 downstream tasks에 fine-tuning하는 pre-training and fine-tuning (PT-FT) 방식이 de-facto standard가 되었음

Large-scale pre-training dataset에는 web에서 수집한 데이터를 포함하고 있기에, label noise가 존재할 수 밖에 없음

Pre-training data의 label noise가 pre-trained model의 downstream tasks performance에 어떠한 영향을 미치는지에 대한 연구는 존재하지 않았는데, 이를 연구한 첫 논문

 

key observation from paper

 

  • Proper noisy labels in pre training (e.g., 5% or 10%) can benefit the performance on ID downstream tasks, while more noise results in inferior results
  • The robustness of transferability on OOD downstream tasks constantly deteriorates as the noise increases, even with the improvement in ID tasks on 5% noise

즉, pre-training dataset에서 slight label noise는 ID에 도움을 주지만 OOD에는 안좋다는 counter-intuitive한 observation


2. Analysis

Downstream dataset의 pre-trained feature에 대한 singular value spectrum을 이용하여, 관측한 현상을 empirically analyze
(각 downstream task의 entire test set에 대해 singular value spectrum을 구함)

 

결론만 말하자면 singular value spectrum을 이용하여 구한 SVE, LSVR로 ID, OOD performance를 각각 해석

 

Singular Value Entropy (SVE) definition from paper

 

SVE는 singular value distribution의 flatness를 측정
(SVE가 클수록 singular value distribution은 flat)

 

SVE가 크다는 의미 : feature space가 data의 structure를 더 잘 capture함
(이는 discriminated features 때문일 수도 있고, noise memorization 때문일 수 있음)

 

Largest Singular Value Ratio (LSVR) definition from paper

 

LSVR은 largest singular value가 singular values sum 중 차지하는 비율을 측정
(LSVR이 클수록 largest singular value가 차지하는 비율이 작아짐)

 

LSVR이 크다는 의미 : largest singular value에 해당하는 singular vector가 data variation을 잘 capture하지 못함

 

기존 연구 중, largest singular value에 해당하는 eigenvector가 feature transferability를 dominate함을 발견함

이를 통해, LSVR이 크다면 feature transferability가 낮다라고 말할 수 있음

 

SVD analysis from paper

  • SVE & ID tasks
    pre-training noise가 커질수록 SVE가 커짐
    왜 pre-training dataset의 slight noise가 ID에 도움이 되는가? → slight noise의 SVE가 clean의 SVE보다 커서
    data내의 noise를 학습하다보니 feature space의 dimension이 span하게 되는데, 이로 인해 성능이 좋은 것
    물론 noise ratio가 증가하게 되면 noisy data structure을 capture하고 memorize하기에, 성능이 감소하게 됨
  • LSVR & OOD tasks
    pre-training noise가 커질수록 LSVR이 커짐
    왜 pre-training dataset의 label noise가 OOD에 악영향을 주는가? → LSVR이 커지기에
    즉, noise ratio가 커질수록 less transferable components가 학습되어 unseen OOD tasks에서 성능이 안좋은 것

3. Mitigation

Overview of Noisy Model Learning from paper

  • 배경 : foundation model과 같은 large pre-trained model을 full fine-tuning하는 것은 비용이 너무 비쌈
  • 목적 : pre-training에서의 noise가 OOD에서의 성능을 악화시키는 malicious effect를 mitigate하고 싶음

배경과 목적을 고려하여, MLP를 학습하여 pre-trained feature F를 new feature space Z로 transform하여 mitigation

 

Analysis를 통해 얻은 insight를 이용하여 loss를 설계하고, 이를 이용하여 MLP 학습
(insight : 다양한 feature를 배워야하며, LSVR이 작아야함)

 

consistency regularization from paper

 

consistency regularization: pre-trained knowledge를 잊지 않고 유지하게끔 하는 loss

 

covariance regularization from paper

 

covariance regularization: 모델이 다양한 feature를 배우도록 하는 loss
(Barlow Twins, VICReg에서 사용했던 방식, SVE가 커지도록)

 

dominant singular value regularization from paper

 

dominant singular value regularization: LSVR을 directly maximize하는 loss

 

NMTune loss from paper

 

위 3가지 regularization을 합한 NMTune loss + CE loss로 학습하면 pre-training label noise로 인한 negative impact를 mitigation할 수 있다라는 것

 

results from paper

 

Vision, language에서도 NMTune이 효과적임을 보임


4. Conclusions

The author's conclusions

Limitation: linear probing이 NMTune보다 성능이 좋은 경우인 failure case가 존재

 

저자들은 이에 대해 top-K singular values를 optimize하는 SVD regularization을 사용해야하는데, largest singular value만 optimize했기 때문이라고 추측

top-K에서의 K의 optimal value는 dataset마다 다를텐데, K=1이 다양한 tasks에서 보편적으로 좋은 performance를 보이기에 그냥 사용했다고 적혀있음

 

My Conclusion

Pre-training에서의 slight label noise가 ID downstream 성능에 도움이 되며, OOD downstream 성능에 해가 된다는 observation은 매우 흥미로움

 

그러나 limitation에도 언급했듯이, NMTune이 LP보다 성능이 안좋은 failure case가 있기에 올바른 metric으로 분석했는가?에 대한 의문이 남아있음

 

그럼에도 불구하고 새로운 분야 개척 + 흥미로운 observation이라는 조합은 다양한 생각할 거리들을 제공하기에 가치가 있다고 생각함

 

Rating

Good

Paper Info

  • Accepted on NeurIPS Datasets and Benchmarks 2023 Spotlight
  • Authors: Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, Yacine Jernite
  • Affiliation: Hugging Face, Leipzig University, ScaDS.AI
  • arXiv link: https://arxiv.org/abs/2303.11408
  • OpenReview link: https://openreview.net/forum?id=qVXYU3F017
  • Task: TTI system의 social bias identification
  • TLDR: Profession dataset에 대해 annotator-free method를 이용하여 gender, ethnicity bias identification

1. Brief Summary

 

기존 연구들은 binary gender, fixed prior ethnicity에 대한 classification을 통해 TTI system의 social bias를 identify했음

 

이러한 classification 기반의 social bias identification 방법론들은 2가지 문제를 가짐

  1. trans와 같은 기존에 없던 attribute에 대한 bias identification을 위해, classification 모델을 새로 학습해야함
  2. 학습한 classification 모델이 완벽하지 않음

이를 극복하기 위해, 저자들은 다양한 attributes에 대해 flexible하게 social bias identification할 수 있는 방법론을 제시함

 

TTI system의 특성을 고려하여 text modality, image modality 측면에서 social bias를 분석하는 방법을 제안하며, AI에 대한 이해도가 부족한 사람도 social bias를 분석할 수 있도록 툴을 제공

 

 

stable-bias (Stable Bias)

Stable Bias: Analyzing Societal Representations in Diffusion Models As machine learning-enabled Text-to-Image (TTI) systems are becoming increasingly prevalent and seeing growing adoption as commercial services, characterizing the social biases they exhibi

huggingface.co

 


2. Methodology: Auditing Social Biases in TTI Systems

overall approach from paper

Overall concept
1. Bias 평가 기준인 identity characteristic을 정의 (e.g. gender, ethnicity)
2. Identity attributes를 이용하여 input prompts 생성 + TTI system을 이용한 image generation
3. Bias가 있는지 확인할 social characteristic을 정의 (e.g. profession)
4. Social attributes를 이용하여 input prompts 생성 + TTI system을 이용한 image generation
5. TTI system의 특성을 고려하여 text modality, image modality 측면에서 분석

 

2.1. Generating a Dataset of Identity Characteristics and Social Attributes

  • Identity dataset
    bias 평가 기준이 될 social attribute으로 gender, ethnicity 선택
    gender는 trans를 제외하고는 US context 반영, ethnicity는 North American context 반영
    4 gender x 17 ethnicity → total 68 combinations
    각 prompt당 30 images 생성 → total 2,040 images

  • Profession dataset
    bias가 있는지 audit할 target attribute으로 profession 선택
    U.S. Bureau of Labor Statistics (BLS) 반영
    total 146 professions

  • List of attributes used for prompting
더보기
list of identity, profession attributes from paper

 

2.2. Different Approaches for Analyzing Generated Images

TTI의 multi-modal nature을 고려하여 text modality, image modality 측면에서 social bias 분석 + in-depth exploration을 할 수 있는 interactive tools 제공

 

2.2.1. Text Features Analysis: Image-to-Text Systems 

 

Image captioning, VQA 모델을 이용하여 Profession dataset의 images에 대한 text descriptions를 생성
(ViT GPT-2 for image captioning, BLIP VQA for Visual Question Answering)

Image captioning을 통해 multi-word captions를, VQA model + question을 통해 single word or short phrase를 얻음
(VQA question: "What word best describes this person's appearance?")

 

구한 image captions, VQA answers에 gender-marked words가 포함됐을 likelihood를 이용하여 social bias 분석

(man, woman → gender-marked words / person, profession name → gender-unspecified descriptors)

 

 

2.2.2. Visual Features Analysis: Clustering-Based Approach

Overall concept : identity dataset의 image embedding을 clustering한 후, profession dataset의 image embedding이 어떤 cluster에 속하는지를 이용하여 social bias를 evaluate

 

  • Obtaining image embedding using VQA model
더보기
BLIP VQA from Reference 1

 

VQA 모델 + question을 이용하여 image embedding을 구함
(BLIP VQA with question "What word best describes this person's appearance?",

the normalized average of the question token embeddings produced by the VQA encoder conditioned on the image)

 

Person에 집중한 image embedding을 얻기 위해 CLIP image encoder를 사용하지 않고 VQA 모델 사용

  1. Identity dataset에 대해 image embedding을 구한 뒤, 24 regions로 clustering
    24 regions를 사용한 이유 : interpretability와 discriminative를 적당히 모두 만족하는 optimal number라서
    (optimal number of clusters in terms of distinctiveness and interpretability of the analysis)
  2. Image를 생성했던 prompt를 이용하여, 각 region을 대표하는 gender, ethnicity를 파악 (top-2 gender, top-4 ethnicity)
  3. Profession dataset에 대해 image embedding을 구한 뒤, 어떤 region에 해당하는지 파악
  4. 각 profession에 해당하는 이미지들이 어떤 regions에 속하는지를 이용하여 social bias 파악

 

2.2.3. Interactive Exploration

 

Ad-hoc in-depth exploration을 할 수 있도록, 다양한 interactive tools 제공
(quantitative insights를 제공하려는 목적 X)


3. Results

3.1. Gender Bias Analysis through Text Markers

Overall concept : profession dataset에 대해 생성한 text descriptions를 이용하여 gender bias 분석

identifying social bias of TTI system using text modality from paper

 

BLS-provided numbers와 비교했을 때, gender bias가 가장 큰건 DALL-E 2, 가장 작은건 Stable Diffusion v1.4임

 

Image captions의 97.66%가 gender-marked terms를 포함하고 있는 반면, VQA answers는 45.56%만 포함하고 있음

대부분의 image captions는 full sentences인 반면, 대부분의 VQA answers는 single word prediction이기에 그런것

참고로 gender-neutral terms는 거의 없었으며, non-binary gender marker는 아예 없었음

  • Example - professions with large discrepancy
더보기

Caption, VQA 모두 고려했을 때 discrepancy가 가장 컸던 professions는 다음과 같음

BLS보다 text description에 women 비율이 더 적은 profession

즉, women을 더 적게 생성한 profession
clerk (57/55% less), data entry keyer (55/53% less), real estate broker (52/54% less)

BLS보다 text description에 women 비율이 더 많은 profession

즉, women을 더 많이 생성한 profession
singer (29/36% more), cleaner (20/16% more), dispatcher (19/16% more)

  • Markedness
더보기
 

Markedness - Wikipedia

From Wikipedia, the free encyclopedia State of standing out as unusual or difficult in comparison to a more common or regular form In linguistics and social sciences, markedness is the state of standing out as nontypical or divergent as opposed to regular

en.wikipedia.org

 

Markedness: 다른 것들과 구분되는 특징을 가진 것

 

사람이 image를 labeling한다고 하면, image에서 특징적인 것을 기준으로 text labeling하게 됨

Image captions, VQA answers에 person과 같은 gender-neutral terms이 거의 등장하지 않은 이유를 markedness로 이해할 수 있음

 

3.2. Gender and Ethnicity Distribution in the Image Space

3.2.1. Characterizing Identity Regions in the Image Space

identity clusters (regions) example from paper

 

24개의 regions에 대해, top-2 gender & top-4 ethnicity를 이용하여 각 region의 overall identity trend를 파악

Profession dataset을 24 regions에 대해 clustering하여, 전반적인 trend를 rough하게 파악할 수 있음
(e.g. Table 2의 share을 보면 알 수 있듯이, Profession dataset 중 40%가 White man이며 woman은 25.5%밖에 안됨)

 

identifying social bias on specific job from paper

 

Figure 2, 3와 같이, 특정 profession에 대한 social bias가 어떤지 + TTI system별 차이를 확인할 수 있음

 

 

3.2.2. Gender and Ethnicity Representation across Systems

TTI systems comparison from paper

  • Method 1
더보기
  1. BLS에서 gender, ethnicity를 기준으로 jobs를 rank
    (woman for gender, Black for ethnicity)
  2. Jobs를 5 bins로 group을 나눔
  3. 각 group에 속하는 jobs에 대해 BLS를 이용하여 woman, Black의 비율을 측정
  4. 각 group에 속하는 jobs에 대해 Profession dataset의 images들의 woman, Black의 비율을 측정
    (group내의 images가 woman이 top-2 gender인 region에 있는지, Black이 top-4 ethnicity인 region에 있는지의 비율)
  5. Profession dataset에 대한 woman, Black의 비율과 BLS에서의 woman, Black 비율을 비교

위에서 설명했던 방법으로는 TTI system의 social bias가 얼마나 심한지, 그리고 TTI systems간 비교하기 어려움

 

Method 1을 이용하여, TTI systems의 general bias trends를 수치로 표현하여 Table 3과 같이 비교할 수 있음

Stable Diffusion v1.4이 US distribution과 차이가 가장 적고, DALL-E 2가 가장 큼

 

11 TTI systems initialized from pre-trained Stable Diffusion from paper

 

저자들은 추가적으로 HuggingFace Hub에서 가장 많이 다운로드된 11 TTI models에 대해서도 수치를 측정

11 TTI models 모두 pre-trained Stable Diffusion model로 initialize했음에도 불구하고, specific fine-tuning, adaptation process에 따라 social bias의 diversity가 다름

 

3.3. Interactive Tools for Interactive Exploration

3 interactive tools from paper

 

  • Diffusion Bias Explorer (Figure 5 (a))
    prompt에 대한 TTI system의 결과를 보여주어, bias tendency를 눈으로 확인 가
  • Average Face Comparison Tool (Figure 5 (b))
    python package Facer를 이용하여 face detection & alignment를 이용하여 profession별 facial images를 average
    facial recognition, classification techniques 없이 생성된 images에 대한 high-level patterns 확인 가능
  • Nearest Neighbors Explorers: BoVW and Colorfulness (Figure 5 (c))
    2가지 방식의 nearest-neighbor lookup tools를 이용하여 생성된 image에 대한 structured exploration
    color를 반영한 colorfulness, structural similarity를 반영한 bag-of-visual-words TF-IDF index를 이용
    해당 방법들은 external pre-training dataset에 depend하지 않음

4. Conclusions

The author's conclusions

저자들이 언급한 limitations는 다음과 같음

  1. Image captioning model, VQA model에 bias가 존재하여 생성된 captions, VQA answers도 bias가 있을 수 있음
  2. DALL-E 2는 open-source가 아니라서, input prompt를 뒷단에서 수정할 수 있음
    (we were unable to control for any kind of prompt injection or filtering)
  3. 실제로 social attributes는 inherently fluid, multidimensional, non-discretizable한데 gender, ethnicity로 분석함
  4. 저자들 중 gender, ethnicity social science에 대한 primary academic background를 가진 사람이 없음
  5. 주로 Western world 측면에서의 bias에 대해 다룸

이러한 limitations에도 불구하고, reviewer들은 annotation-free 방법론 + interactivate tools를 제공했다는 것을 매우 좋게 봐줌

 

My Conclusion

개인적으로 social bias identification task가 중요한지를 체감하지 못하다보니, 해당 논문의 impact가 크게 와닿지 않았음

(gender + ethnicity + profession prompt를 넣어주면 되는거 아닌가?라는 생각)

 

그럼에도 불구하고, clustering을 통한 annotator-free approach는 재밌었으며 참고할만함

 

Rating

Fine


Extra

Reference 1: [ICML 2022 Spotlight] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Paper Info

  • Accepted on ECCV 2022
  • Authors: Roni Paiss, Hila Chefer, Lior Wolf
  • Affiliation: Tel Aviv Uni, Apple
  • arXiv link: https://arxiv.org/abs/2204.04908
  • Task: zero-shot CLIP을 objective로 사용하는 latent optimization
    - few-shot prompt image classification
    - zero-shot text-guided image editing
    - zero-shot text-to-image with spatial conditioning
  • TLDR: CLIP의 similarity loss에 XAI-based loss를 추가하여, CLIP이 가지고 있는 한계점을 극복

1. Brief Summary

latent optimization example, Figure 1 from Reference 4

 

latent optimization에서 zero-shot CLIP score을 objective로 사용하면 2가지 문제가 있음

기존 연구들은 사용할 input text를 carefully tune하던지, 혹은 latent optimization 방식을 사용하지 않았음

해당 논문은 CLIP이 어디에 focus 해야하는지를 알려주는 XAI-based loss를 추가하여 문제를 해결함

 

Figure 1 from paper

문제 1

input text가 제대로 반영되지 않은 image가 생성됨

 

원인 1

CLIP은 input text의 phrasing에 unstable하다는 instability issue가 있음

이로 인해, CLIP similarity loss로 latent를 optimize하면 sub-optimal에 빠질 수 있음

즉, input text 중 일부만을 보고 latent가 optimize되어 문제가 생기게 된 것

 

해결 1

CLIP이 input text의 모든 semantic words를 보도록 하면 해결할 수 있음

text relevance score을 이용한 explainability loss를 추가하여 이를 해결

 

Figure 4 from paper

 

문제 2

input text 내의 spatial condition이 제대로 반영되지 않은 image가 생성됨

 

원인 2

CLIP이 학습한 데이터로 인해, CLIP은 input간에 matching entity간의 existence를 중요하게 생각하지 position을 중요하게 생각하지 않음

 

해결 2

먼저 spatial condition이 있는 input text를 bounding box와 그에 해당하는 text로 나눔

CLIP이 주어진 text에 대해 상응하는 bounding box를 보도록 하면 해결할 수 있음

image relevance score와 bounding box간의 Dice loss를 accumulate한 IoU loss를 추가하여 이를 해결


2. Method

2.1. Explainability

relevancy map from Reference 1

결국 relevancy map이란, CLIP이 각 input tokens를 얼마나 focus했는지를 측정한 것

 

relevance score of each input token & relevance score of a word

relevancy map을 기반으로 each input token에 대한 relevance score을 구할 수 있음
word를 구성하는 tokens의 relevance score의 max 값을 이용하여 word의 relevance score를 구함

 

2.2. Prompt engineering

  • Context Optimization (CoOp)
더보기
CoOp from Reference 2
CoOp training from Reference 2
CoOp objective from paper

 

CLIP image encoder, text encoder는 frozen

 

n-shot data가 주어졌을 때, 정답 class에 대한 likelihood가 maximize하도록 learnable context를 학습
(Equation 1이 maximize되도록 학습, t(c) : textual template of class c)

여기서 learnable context라는 것은 text가 아니라 벡터이기에, 단순하게 backprop으로 학습

 

  • explainability loss

CLIP score가 class name을 보고 optimize하면 CoOp이 sub-optimal로 빠지는 것을 방지할 수 있음

(learned context만 보고 similarity loss가 optimize되는 것을 방지)

 

이를 위해 text relevance score을 기반으로 explainability loss를 설계

explainability score from paper

분자 : text template 중 class label에 해당하는 words의 relevancy score 중 max
분모 : text template 중 class label을 제외한 모든 words의 relevancy score의 합
score가 높다 → CLIP이 class label text를 보고 similarity score을 계산함
score가 낮다 → CLIP이 class label text를 보지 않고 similarity score을 계산함

 

explainability score는 text prompt 내의 다른 word에 비해 class name 가 CLIP score에 미친 영향력을 측정함

 

explainability loss from paper

explainability loss는 ground truth class에 대한 explainability score는 높아지도록, 다른 class에 대한 explainability score는 낮아지도록 만들어줌

 

2.3. Zero-shot text-guided image manipulation

  • StyleCLIP
더보기
StyleCLIP from Reference 3
StyleCLIP latent optimization from Reference 3

 

StyleCLIP 논문에서는 3가지 방식의 text-based image editing 방식을 제안함
(latent optimization, mapper training, global directions extraction)

latent optimization을 제외한 2가지 방식은 모델을 학습을 해야함

해당 논문은 zero-shot method에만 관심이 있기에, latent optimization 방법만 실험
(input image에 대한 latent code를 directly optimize하여 text에 맞는 image를 생성하는 방식)

 

  • explainability loss

CLIP이 input text의 모든 semantic meaning을 보도록 하면 local minima에 빠지는 것을 방지할 수 있음

 

이를 위해 text relevance score을 기반으로 explainability loss를 설계

explainability loss from paper

 

input text query에서 semantic words의 집합 S를 구한 뒤, S의 원소에 대한 relevance score가 maximize되도록 설계


2.4. Zero-shot text-to-image with spatial conditioning

  • VQGAN-CLIP
더보기
VQGAN-CLIP from Reference 4
VQGAN-CLIP objective from Reference 4

 

1. VQGAN encoder를 통해 input image로부터 z-vector를 구함
2. VQGAN decoder를 통해 z-vector로부터 generated image를 구함
3. Augmentation을 통해 generated image로부터 augmented images를 구함
4. Augmented images와 text prompt간의 CLIP similarity score을 구함
5. Similarity loss + z-vector에 대한 L2 regularization loss를 통해 loss를 구함
6. Loss가 minimize되도록 z-vector를 backprop으로 update

 

Task가 zero-shot text-to-image이기에, 1번 과정 대신 random Gaussian에서 sampling하여 z-vector initialize
(text가 주어졌을 때 image를 생성하는 task이기에, input image가 필요 없음)

 

  • IoU loss

먼저 spatial conditioning이 있는 text를 (bounding box, bounding box 안에 생성할 text) pair로 변환

(spatial condition에 해당하는 text를 bounding box로 변환한다는 의미)

 

CLIP이 bounding box에 해당하는 영역을 보고 text와의 similarity를 높이도록 IoU loss를 설계

IoU loss from paper
overall objective


3. Experiments

3.1. One-shot prompt engineering

Figure 2, Table 1 from paper

 

다양한 backbone, CoOp hyperparameter에 대해 실험한 결과, explainability loss를 추가한게 더 좋음

 

3.2. Zero-shot text-guided image manipulation

Figure 3, Table 2 from paper

Quality : text prompt와 manipulation 결과간의 similarity
Identity : manipulation 결과가 identity를 얼마나 잘 보존했는지

 

전반적으로 Quality와 Identity간의 trade-off가 있는 것을 확인할 수 있음


StyleCLIP은 identity는 잘 보존하지만 text prompt를 잘 반영하지 않으며, explainability loss를 추가하면 identity는 조금 다르지만 text prompt의 semantic을 잘 반영함

저자들이 분석한 결과, input image의 gender를 바꾸는 prompt에 대해 identity gap이 더욱 컸다고 함
(e.g. women image with text prompt 'A man with a beard', 'A blond man')

 

3.3. Zero-shot text-to-image with spatial conditioning

Figure 4, Table 3 from paper

Textual conditioning: CLIP(i, t)
Similarity-based: CLIP(i_j, t_j) → bounding box 이외의 masked image i_j와 t_j 간의 similarity loss
Similarity-based 2: CLIP(i, t_j) + CLIP(i_j, t_j)
ours: CLIP(i, t_j) + IoU loss
Precision, Recall
  각 method별로 image generation
  each text description에 대한 image patch의 explainability map 생성
  Otsu's method를 이용하여 explainability map을 binarize
  binarized maps와 gt간의 precision, recall, F1 score 측정

AP, AR
  각 method별로 image generation
  DETR을 이용하여 object detection
  detected bounding box와 gt간의 AP, AR 측정

 

baseline (textual conditioning, similarity-based, similarity-based 2)는 bounding box 이외의 공간에도 object를 생성함

IoU loss를 추가하면 bounding box 안에만 object를 잘 생성함


4. Conclusions

The author's conclusions

CLIP이 어디에 집중해야하는가를 알려주어, 모델 학습이 필요 없는 zero-shot 성능을 높일 수 있음

 

하지만, supervised에 비해서 성능이 부족한 건 어쩔 수 없음

 

My Conclusion

해당 논문에서 아쉬웠던 부분을 꼽자면 다음과 같음

  • [문제에 대한 실험] 논문에서 제시한 CLIP의 2가지 문제점에 대한 실험이 없음
  • [기존 연구와의 비교] "carefully tuned input text" vs "not-tuned input text + explainability loss" 성능 비교가 없음
  • [실험 다양성] image editing task에서 semantic words가 많은 long input text에 대한 결과가 없음
  • [실험 엄밀성] image editing task에서 human evaluation 이외의 quantitative 지표가 없음

그럼에도 불구하고, 해당 논문의 컨셉 자체는 워낙 직관적이고 기존 연구들로부터 잘된다는 것이 널리 알려진 방법임

(multi-task loss를 통해 generalization 성능을 높임)

 

XAI와 CLIP을 섞은 것이 흥미로웠으며, 해당 컨셉은 충분히 다양한 연구에서 활용할만할듯

 

Rating

Good

 


5. Extra

Reference 1: [ICCV 2021] Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers
Reference 2: [IJCV 2022] Learning to Prompt for Vision-Language Models
Reference 3: [ICCV 2021 Oral] StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Reference 4: [ECCV 2022] VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance

+ Recent posts