Paper Info
- Accepted on NeurIPS 2023 Spotlight
- Authors: Mazda Moayeri, Wenxiao Wang, Sahil Singla, Soheil Feizi
- Affiliation: University of Maryland, Google
- arXiv link: https://arxiv.org/abs/2212.02648
- OpenReview link: https://openreview.net/forum?id=jSuhnO9QJv&referrer=%5Bthe%20profile%20of%20Soheil%20Feizi%5D
- Task: image classification dataset에 spurious correlation이 있는지 identify & mitigate
- TLDR: CAM을 이용하여 core feature, spurious feature인지를 사람이 라벨링 + 이를 이용하여 spuriosity 측정 + last linear layer만 low spuriosity images로 fine-tune
1. Brief Summary
1.1. Identification
1. 모델을 adversarial training으로 학습
adversarial training이 perceptually aligned gradients로 이끈다는 기존 연구가 존재
따라서, gradient-based interpretation의 utility가 개선되어 interpretable한 모델이 됨
2. 각 class마다 annotation할 important neural features 선택
각 class마다 가장 많이 activate되는 top-5 feature 선택
activate된다는 기준 : feature activation x linear classification head weight
3. Neural features에 대한 visualization을 이용하여, 사람이 core feature인지 spurious feature인지 라벨링
CAM을 이용한 heatmap, feature attack을 이용하여 시각화
class info, top-5 neural features가 주어졌을 때 core인지 spurious인지 라벨링
1.2. Measure
Image with high spuriosity : spurious correlation이 많은 image
Image with low spuriosity : spurious correlation이 없는 image
spuriosity : how strongly spurious cues are present in an image
각 class 내의 image마다 spurious feature가 얼마나 activate되는 지를 이용하여 spuriosity 측정
spuriosity를 이용하여 sorting하면, 각 class마다 spuriosity ranking을 확인할 수 있음
spurious gap : acc(top-k highest spuriosity validation images) - acc(top-k lowest spuriosity validation images)
spurious gap을 통해, model의 bias를 측정 가능
89개의 모든 모델들이 spurious cues가 없을 때 성능이 안좋음 → all models are biased
주목할 점으로, CLIP은 다른 vision models와 다른 경향성을 보임
1.3. Mitigation
low spuriosity images로 linear layer만 fine-tuning하여 spurious feature에 대한 reliance를 mitigate
2. Conclusions
The author's conclusions
Identification 파트는 Salient ImageNet을 그대로 이용했기에, 사실상 contribution이라고 할만한 점은 노가다했다는 점
(ImageNet-1K의 모든 class에 대해 했다는 점)
My Conclusion
Identification, mitigation 파트는 contribution이라고 할만한게 없음
(identification은 Salient ImageNet, mitigation은 last layer re-training)
spuriosity를 정의하고, model의 bias를 spurious gap으로 확인한다는 점은 그래도 참고할만할듯
그리고 정리하기 귀찮아서 없지만, spurious feature collision은 그래도 볼만한듯
그럼에도 다양하게 짬뽕 + 분석한 논문인지라, spotlight까지 받을만한 논문인지는 잘 모르겠음...
+ mislabeled data는 low spurious score을 가질 것 같다는 생각도 드는데, 이를 고려하지 않아서 매우 아쉬웠음
Rating
Fine