Task: image classification dataset에 spurious correlation이 있는지 identify & mitigate
TLDR: CAM을 이용하여 core feature, spurious feature인지를 사람이 라벨링 + 이를 이용하여 spuriosity 측정 + last linear layer만 low spuriosity images로 fine-tune
1. Brief Summary
1.1. Identification
identification overview from paper
1. 모델을 adversarial training으로 학습
adversarial training이 perceptually aligned gradients로 이끈다는 기존 연구가 존재
따라서, gradient-based interpretation의 utility가 개선되어 interpretable한 모델이 됨
2. 각 class마다 annotation할 important neural features 선택 각 class마다 가장 많이 activate되는 top-5 feature 선택 activate된다는 기준 : feature activation x linear classification head weight 3. Neural features에 대한 visualization을 이용하여, 사람이 core feature인지 spurious feature인지 라벨링 CAM을 이용한 heatmap, feature attack을 이용하여 시각화 class info, top-5 neural features가 주어졌을 때 core인지 spurious인지 라벨링
1.2. Measure
definition of spuriosity from paper
Image with high spuriosity : spurious correlation이 많은 image Image with low spuriosity : spurious correlation이 없는 image
spuriosity : how strongly spurious cues are present in an image 각 class 내의 image마다 spurious feature가 얼마나 activate되는 지를 이용하여 spuriosity 측정
spuriosity rankings examples from paper
spuriosity를 이용하여 sorting하면, 각 class마다 spuriosity ranking을 확인할 수 있음
2. Methodology: Auditing Social Biases in TTI Systems
overall approach from paper
Overall concept 1. Bias 평가 기준인 identity characteristic을 정의 (e.g. gender, ethnicity) 2. Identity attributes를 이용하여 input prompts 생성 + TTI system을 이용한 image generation 3. Bias가 있는지 확인할 social characteristic을 정의 (e.g. profession) 4. Social attributes를 이용하여 input prompts 생성 + TTI system을 이용한 image generation 5. TTI system의 특성을 고려하여 text modality, image modality 측면에서 분석
2.1. Generating a Dataset of Identity Characteristics and Social Attributes
Identity dataset bias 평가 기준이 될 social attribute으로 gender, ethnicity 선택 gender는 trans를 제외하고는 US context 반영, ethnicity는 North American context 반영 4 gender x 17 ethnicity → total 68 combinations 각 prompt당 30 images 생성 → total 2,040 images
Profession dataset bias가 있는지 audit할 target attribute으로 profession 선택 U.S. Bureau of Labor Statistics (BLS) 반영 total 146 professions
list of identity, profession attributes from paper
2.2. Different Approaches for Analyzing Generated Images
TTI의 multi-modal nature을 고려하여 text modality, image modality 측면에서 social bias 분석 + in-depth exploration을 할 수 있는 interactive tools 제공
2.2.1. Text Features Analysis: Image-to-Text Systems
Image captioning, VQA 모델을 이용하여 Profession dataset의 images에 대한 text descriptions를 생성 (ViT GPT-2 for image captioning, BLIP VQA for Visual Question Answering)
Image captioning을 통해 multi-word captions를, VQA model + question을 통해 single word or short phrase를 얻음 (VQA question: "What word best describes this person's appearance?")
구한 image captions, VQA answers에 gender-marked words가 포함됐을 likelihood를 이용하여 social bias 분석
(man, woman → gender-marked words / person, profession name → gender-unspecified descriptors)
2.2.2. Visual Features Analysis: Clustering-Based Approach
Overall concept : identity dataset의 image embedding을 clustering한 후, profession dataset의 image embedding이 어떤 cluster에 속하는지를 이용하여 social bias를 evaluate
VQA 모델 + question을 이용하여 image embedding을 구함 (BLIP VQA with question "What word best describes this person's appearance?",
the normalized average of the question token embeddings produced by the VQA encoder conditioned on the image)
Person에 집중한 image embedding을 얻기 위해 CLIP image encoder를 사용하지 않고 VQA 모델 사용
Identity dataset에 대해 image embedding을 구한 뒤, 24 regions로 clustering 24 regions를 사용한 이유 : interpretability와 discriminative를 적당히 모두 만족하는 optimal number라서 (optimal number of clusters in terms of distinctiveness and interpretability of the analysis)
Image를 생성했던 prompt를 이용하여, 각 region을 대표하는 gender, ethnicity를 파악 (top-2 gender, top-4 ethnicity)
Profession dataset에 대해 image embedding을 구한 뒤, 어떤 region에 해당하는지 파악
각 profession에 해당하는 이미지들이 어떤 regions에 속하는지를 이용하여 social bias 파악
2.2.3. Interactive Exploration
Ad-hoc in-depth exploration을 할 수 있도록, 다양한 interactive tools 제공 (quantitative insights를 제공하려는 목적 X)
3. Results
3.1. Gender Bias Analysis through Text Markers
Overall concept : profession dataset에 대해 생성한 text descriptions를 이용하여 gender bias 분석
identifying social bias of TTI system using text modality from paper
BLS-provided numbers와 비교했을 때, gender bias가 가장 큰건 DALL-E 2, 가장 작은건 Stable Diffusion v1.4임
Image captions의 97.66%가 gender-marked terms를 포함하고 있는 반면, VQA answers는 45.56%만 포함하고 있음
대부분의 image captions는 full sentences인 반면, 대부분의 VQA answers는 single word prediction이기에 그런것
참고로 gender-neutral terms는 거의 없었으며, non-binary gender marker는 아예 없었음
사람이 image를 labeling한다고 하면, image에서 특징적인 것을 기준으로 text labeling하게 됨
Image captions, VQA answers에 person과 같은 gender-neutral terms이 거의 등장하지 않은 이유를 markedness로 이해할 수 있음
3.2. Gender and Ethnicity Distribution in the Image Space
3.2.1. Characterizing Identity Regions in the Image Space
identity clusters (regions) example from paper
24개의 regions에 대해, top-2 gender & top-4 ethnicity를 이용하여 각 region의 overall identity trend를 파악
Profession dataset을 24 regions에 대해 clustering하여, 전반적인 trend를 rough하게 파악할 수 있음 (e.g. Table 2의 share을 보면 알 수 있듯이, Profession dataset 중 40%가 White man이며 woman은 25.5%밖에 안됨)
identifying social bias on specific job from paper
Figure 2, 3와 같이, 특정 profession에 대한 social bias가 어떤지 + TTI system별 차이를 확인할 수 있음
3.2.2. Gender and Ethnicity Representation across Systems
BLS에서 gender, ethnicity를 기준으로 jobs를 rank (woman for gender, Black for ethnicity)
Jobs를 5 bins로 group을 나눔
각 group에 속하는 jobs에 대해 BLS를 이용하여 woman, Black의 비율을 측정
각 group에 속하는 jobs에 대해 Profession dataset의 images들의 woman, Black의 비율을 측정 (group내의 images가 woman이 top-2 gender인 region에 있는지, Black이 top-4 ethnicity인 region에 있는지의 비율)
Profession dataset에 대한 woman, Black의 비율과 BLS에서의 woman, Black 비율을 비교
위에서 설명했던 방법으로는 TTI system의 social bias가 얼마나 심한지, 그리고 TTI systems간 비교하기 어려움
Method 1을 이용하여, TTI systems의 general bias trends를 수치로 표현하여 Table 3과 같이 비교할 수 있음
Stable Diffusion v1.4이 US distribution과 차이가 가장 적고, DALL-E 2가 가장 큼
11 TTI systems initialized from pre-trained Stable Diffusion from paper
저자들은 추가적으로 HuggingFace Hub에서 가장 많이 다운로드된 11 TTI models에 대해서도 수치를 측정
11 TTI models 모두 pre-trained Stable Diffusion model로 initialize했음에도 불구하고, specific fine-tuning, adaptation process에 따라 social bias의 diversity가 다름
3.3. Interactive Tools for Interactive Exploration
3 interactive tools from paper
Diffusion Bias Explorer (Figure 5 (a)) prompt에 대한 TTI system의 결과를 보여주어, bias tendency를 눈으로 확인 가
Average Face Comparison Tool (Figure 5 (b)) python package Facer를 이용하여 face detection & alignment를 이용하여 profession별 facial images를 average facial recognition, classification techniques 없이 생성된 images에 대한 high-level patterns 확인 가능
Nearest Neighbors Explorers: BoVW and Colorfulness (Figure 5 (c)) 2가지 방식의 nearest-neighbor lookup tools를 이용하여 생성된 image에 대한 structured exploration color를 반영한 colorfulness, structural similarity를 반영한 bag-of-visual-words TF-IDF index를 이용 해당 방법들은 external pre-training dataset에 depend하지 않음
4. Conclusions
The author's conclusions
저자들이 언급한 limitations는 다음과 같음
Image captioning model, VQA model에 bias가 존재하여 생성된 captions, VQA answers도 bias가 있을 수 있음
DALL-E 2는 open-source가 아니라서, input prompt를 뒷단에서 수정할 수 있음 (we were unable to control for any kind of prompt injection or filtering)
실제로 social attributes는 inherently fluid, multidimensional, non-discretizable한데 gender, ethnicity로 분석함
저자들 중 gender, ethnicity social science에 대한 primary academic background를 가진 사람이 없음
주로 Western world 측면에서의 bias에 대해 다룸
이러한 limitations에도 불구하고, reviewer들은 annotation-free 방법론 + interactivate tools를 제공했다는 것을 매우 좋게 봐줌
My Conclusion
개인적으로 social bias identification task가 중요한지를 체감하지 못하다보니, 해당 논문의 impact가 크게 와닿지 않았음