Paper Info


1. Brief Summary

1.1. Identification

identification overview from paper

 

1. 모델을 adversarial training으로 학습

    adversarial training이 perceptually aligned gradients로 이끈다는 기존 연구가 존재

    따라서, gradient-based interpretation의 utility가 개선되어 interpretable한 모델이 됨

2. 각 class마다 annotation할 important neural features 선택
    각 class마다 가장 많이 activate되는 top-5 feature 선택
    activate된다는 기준 : feature activation x linear classification head weight
3. Neural features에 대한 visualization을 이용하여, 사람이 core feature인지 spurious feature인지 라벨링
    CAM을 이용한 heatmap, feature attack을 이용하여 시각화
    class info, top-5 neural features가 주어졌을 때 core인지 spurious인지 라벨링

 

1.2. Measure

definition of spuriosity from paper

Image with high spuriosity : spurious correlation이 많은 image
Image with low spuriosity : spurious correlation이 없는 image

 

spuriosity : how strongly spurious cues are present in an image
각 class 내의 image마다 spurious feature가 얼마나 activate되는 지를 이용하여 spuriosity 측정

spuriosity rankings examples from paper

 

spuriosity를 이용하여 sorting하면, 각 class마다 spuriosity ranking을 확인할 수 있음

 

spurious gap : acc(top-k highest spuriosity validation images) - acc(top-k lowest spuriosity validation images)

spurious gap을 통해, model의 bias를 측정 가능

models are biased toward spurious features

 

89개의 모든 모델들이 spurious cues가 없을 때 성능이 안좋음 → all models are biased
주목할 점으로, CLIP은 다른 vision models와 다른 경향성을 보임

 

1.3. Mitigation

performance from paper

 

low spuriosity images로 linear layer만 fine-tuning하여 spurious feature에 대한 reliance를 mitigate


2. Conclusions

The author's conclusions

Identification 파트는 Salient ImageNet을 그대로 이용했기에, 사실상 contribution이라고 할만한 점은 노가다했다는 점

(ImageNet-1K의 모든 class에 대해 했다는 점)

 

My Conclusion

Identification, mitigation 파트는 contribution이라고 할만한게 없음

(identification은 Salient ImageNet, mitigation은 last layer re-training)

 

spuriosity를 정의하고, model의 bias를 spurious gap으로 확인한다는 점은 그래도 참고할만할듯

그리고 정리하기 귀찮아서 없지만, spurious feature collision은 그래도 볼만한듯

그럼에도 다양하게 짬뽕 + 분석한 논문인지라, spotlight까지 받을만한 논문인지는 잘 모르겠음...

+ mislabeled data는 low spurious score을 가질 것 같다는 생각도 드는데, 이를 고려하지 않아서 매우 아쉬웠음

 

Rating

Fine

Paper Info

  • Accepted on NeurIPS Datasets and Benchmarks 2023 Spotlight
  • Authors: Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, Yacine Jernite
  • Affiliation: Hugging Face, Leipzig University, ScaDS.AI
  • arXiv link: https://arxiv.org/abs/2303.11408
  • OpenReview link: https://openreview.net/forum?id=qVXYU3F017
  • Task: TTI system의 social bias identification
  • TLDR: Profession dataset에 대해 annotator-free method를 이용하여 gender, ethnicity bias identification

1. Brief Summary

 

기존 연구들은 binary gender, fixed prior ethnicity에 대한 classification을 통해 TTI system의 social bias를 identify했음

 

이러한 classification 기반의 social bias identification 방법론들은 2가지 문제를 가짐

  1. trans와 같은 기존에 없던 attribute에 대한 bias identification을 위해, classification 모델을 새로 학습해야함
  2. 학습한 classification 모델이 완벽하지 않음

이를 극복하기 위해, 저자들은 다양한 attributes에 대해 flexible하게 social bias identification할 수 있는 방법론을 제시함

 

TTI system의 특성을 고려하여 text modality, image modality 측면에서 social bias를 분석하는 방법을 제안하며, AI에 대한 이해도가 부족한 사람도 social bias를 분석할 수 있도록 툴을 제공

 

 

stable-bias (Stable Bias)

Stable Bias: Analyzing Societal Representations in Diffusion Models As machine learning-enabled Text-to-Image (TTI) systems are becoming increasingly prevalent and seeing growing adoption as commercial services, characterizing the social biases they exhibi

huggingface.co

 


2. Methodology: Auditing Social Biases in TTI Systems

overall approach from paper

Overall concept
1. Bias 평가 기준인 identity characteristic을 정의 (e.g. gender, ethnicity)
2. Identity attributes를 이용하여 input prompts 생성 + TTI system을 이용한 image generation
3. Bias가 있는지 확인할 social characteristic을 정의 (e.g. profession)
4. Social attributes를 이용하여 input prompts 생성 + TTI system을 이용한 image generation
5. TTI system의 특성을 고려하여 text modality, image modality 측면에서 분석

 

2.1. Generating a Dataset of Identity Characteristics and Social Attributes

  • Identity dataset
    bias 평가 기준이 될 social attribute으로 gender, ethnicity 선택
    gender는 trans를 제외하고는 US context 반영, ethnicity는 North American context 반영
    4 gender x 17 ethnicity → total 68 combinations
    각 prompt당 30 images 생성 → total 2,040 images

  • Profession dataset
    bias가 있는지 audit할 target attribute으로 profession 선택
    U.S. Bureau of Labor Statistics (BLS) 반영
    total 146 professions

  • List of attributes used for prompting
더보기
list of identity, profession attributes from paper

 

2.2. Different Approaches for Analyzing Generated Images

TTI의 multi-modal nature을 고려하여 text modality, image modality 측면에서 social bias 분석 + in-depth exploration을 할 수 있는 interactive tools 제공

 

2.2.1. Text Features Analysis: Image-to-Text Systems 

 

Image captioning, VQA 모델을 이용하여 Profession dataset의 images에 대한 text descriptions를 생성
(ViT GPT-2 for image captioning, BLIP VQA for Visual Question Answering)

Image captioning을 통해 multi-word captions를, VQA model + question을 통해 single word or short phrase를 얻음
(VQA question: "What word best describes this person's appearance?")

 

구한 image captions, VQA answers에 gender-marked words가 포함됐을 likelihood를 이용하여 social bias 분석

(man, woman → gender-marked words / person, profession name → gender-unspecified descriptors)

 

 

2.2.2. Visual Features Analysis: Clustering-Based Approach

Overall concept : identity dataset의 image embedding을 clustering한 후, profession dataset의 image embedding이 어떤 cluster에 속하는지를 이용하여 social bias를 evaluate

 

  • Obtaining image embedding using VQA model
더보기
BLIP VQA from Reference 1

 

VQA 모델 + question을 이용하여 image embedding을 구함
(BLIP VQA with question "What word best describes this person's appearance?",

the normalized average of the question token embeddings produced by the VQA encoder conditioned on the image)

 

Person에 집중한 image embedding을 얻기 위해 CLIP image encoder를 사용하지 않고 VQA 모델 사용

  1. Identity dataset에 대해 image embedding을 구한 뒤, 24 regions로 clustering
    24 regions를 사용한 이유 : interpretability와 discriminative를 적당히 모두 만족하는 optimal number라서
    (optimal number of clusters in terms of distinctiveness and interpretability of the analysis)
  2. Image를 생성했던 prompt를 이용하여, 각 region을 대표하는 gender, ethnicity를 파악 (top-2 gender, top-4 ethnicity)
  3. Profession dataset에 대해 image embedding을 구한 뒤, 어떤 region에 해당하는지 파악
  4. 각 profession에 해당하는 이미지들이 어떤 regions에 속하는지를 이용하여 social bias 파악

 

2.2.3. Interactive Exploration

 

Ad-hoc in-depth exploration을 할 수 있도록, 다양한 interactive tools 제공
(quantitative insights를 제공하려는 목적 X)


3. Results

3.1. Gender Bias Analysis through Text Markers

Overall concept : profession dataset에 대해 생성한 text descriptions를 이용하여 gender bias 분석

identifying social bias of TTI system using text modality from paper

 

BLS-provided numbers와 비교했을 때, gender bias가 가장 큰건 DALL-E 2, 가장 작은건 Stable Diffusion v1.4임

 

Image captions의 97.66%가 gender-marked terms를 포함하고 있는 반면, VQA answers는 45.56%만 포함하고 있음

대부분의 image captions는 full sentences인 반면, 대부분의 VQA answers는 single word prediction이기에 그런것

참고로 gender-neutral terms는 거의 없었으며, non-binary gender marker는 아예 없었음

  • Example - professions with large discrepancy
더보기

Caption, VQA 모두 고려했을 때 discrepancy가 가장 컸던 professions는 다음과 같음

BLS보다 text description에 women 비율이 더 적은 profession

즉, women을 더 적게 생성한 profession
clerk (57/55% less), data entry keyer (55/53% less), real estate broker (52/54% less)

BLS보다 text description에 women 비율이 더 많은 profession

즉, women을 더 많이 생성한 profession
singer (29/36% more), cleaner (20/16% more), dispatcher (19/16% more)

  • Markedness
더보기
 

Markedness - Wikipedia

From Wikipedia, the free encyclopedia State of standing out as unusual or difficult in comparison to a more common or regular form In linguistics and social sciences, markedness is the state of standing out as nontypical or divergent as opposed to regular

en.wikipedia.org

 

Markedness: 다른 것들과 구분되는 특징을 가진 것

 

사람이 image를 labeling한다고 하면, image에서 특징적인 것을 기준으로 text labeling하게 됨

Image captions, VQA answers에 person과 같은 gender-neutral terms이 거의 등장하지 않은 이유를 markedness로 이해할 수 있음

 

3.2. Gender and Ethnicity Distribution in the Image Space

3.2.1. Characterizing Identity Regions in the Image Space

identity clusters (regions) example from paper

 

24개의 regions에 대해, top-2 gender & top-4 ethnicity를 이용하여 각 region의 overall identity trend를 파악

Profession dataset을 24 regions에 대해 clustering하여, 전반적인 trend를 rough하게 파악할 수 있음
(e.g. Table 2의 share을 보면 알 수 있듯이, Profession dataset 중 40%가 White man이며 woman은 25.5%밖에 안됨)

 

identifying social bias on specific job from paper

 

Figure 2, 3와 같이, 특정 profession에 대한 social bias가 어떤지 + TTI system별 차이를 확인할 수 있음

 

 

3.2.2. Gender and Ethnicity Representation across Systems

TTI systems comparison from paper

  • Method 1
더보기
  1. BLS에서 gender, ethnicity를 기준으로 jobs를 rank
    (woman for gender, Black for ethnicity)
  2. Jobs를 5 bins로 group을 나눔
  3. 각 group에 속하는 jobs에 대해 BLS를 이용하여 woman, Black의 비율을 측정
  4. 각 group에 속하는 jobs에 대해 Profession dataset의 images들의 woman, Black의 비율을 측정
    (group내의 images가 woman이 top-2 gender인 region에 있는지, Black이 top-4 ethnicity인 region에 있는지의 비율)
  5. Profession dataset에 대한 woman, Black의 비율과 BLS에서의 woman, Black 비율을 비교

위에서 설명했던 방법으로는 TTI system의 social bias가 얼마나 심한지, 그리고 TTI systems간 비교하기 어려움

 

Method 1을 이용하여, TTI systems의 general bias trends를 수치로 표현하여 Table 3과 같이 비교할 수 있음

Stable Diffusion v1.4이 US distribution과 차이가 가장 적고, DALL-E 2가 가장 큼

 

11 TTI systems initialized from pre-trained Stable Diffusion from paper

 

저자들은 추가적으로 HuggingFace Hub에서 가장 많이 다운로드된 11 TTI models에 대해서도 수치를 측정

11 TTI models 모두 pre-trained Stable Diffusion model로 initialize했음에도 불구하고, specific fine-tuning, adaptation process에 따라 social bias의 diversity가 다름

 

3.3. Interactive Tools for Interactive Exploration

3 interactive tools from paper

 

  • Diffusion Bias Explorer (Figure 5 (a))
    prompt에 대한 TTI system의 결과를 보여주어, bias tendency를 눈으로 확인 가
  • Average Face Comparison Tool (Figure 5 (b))
    python package Facer를 이용하여 face detection & alignment를 이용하여 profession별 facial images를 average
    facial recognition, classification techniques 없이 생성된 images에 대한 high-level patterns 확인 가능
  • Nearest Neighbors Explorers: BoVW and Colorfulness (Figure 5 (c))
    2가지 방식의 nearest-neighbor lookup tools를 이용하여 생성된 image에 대한 structured exploration
    color를 반영한 colorfulness, structural similarity를 반영한 bag-of-visual-words TF-IDF index를 이용
    해당 방법들은 external pre-training dataset에 depend하지 않음

4. Conclusions

The author's conclusions

저자들이 언급한 limitations는 다음과 같음

  1. Image captioning model, VQA model에 bias가 존재하여 생성된 captions, VQA answers도 bias가 있을 수 있음
  2. DALL-E 2는 open-source가 아니라서, input prompt를 뒷단에서 수정할 수 있음
    (we were unable to control for any kind of prompt injection or filtering)
  3. 실제로 social attributes는 inherently fluid, multidimensional, non-discretizable한데 gender, ethnicity로 분석함
  4. 저자들 중 gender, ethnicity social science에 대한 primary academic background를 가진 사람이 없음
  5. 주로 Western world 측면에서의 bias에 대해 다룸

이러한 limitations에도 불구하고, reviewer들은 annotation-free 방법론 + interactivate tools를 제공했다는 것을 매우 좋게 봐줌

 

My Conclusion

개인적으로 social bias identification task가 중요한지를 체감하지 못하다보니, 해당 논문의 impact가 크게 와닿지 않았음

(gender + ethnicity + profession prompt를 넣어주면 되는거 아닌가?라는 생각)

 

그럼에도 불구하고, clustering을 통한 annotator-free approach는 재밌었으며 참고할만함

 

Rating

Fine


Extra

Reference 1: [ICML 2022 Spotlight] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

+ Recent posts