Paper Info
- Accepted on ICLR 2024 Spotlight
- Authors: Hao Chen, Jindong Wang, Ankit Shah, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama, Bhiksha Raj
- Affiliation: Carnegie Mellon University, Microsoft Research Asia, SusTech, RIKEN AIP, The University of Tokyo, Mohamed bin Zayed University of AI
- arXiv link: https://arxiv.org/abs/2309.17002
- OpenReview link: https://openreview.net/forum?id=TjhUtloBZU
- Task: pre-training dataset의 label noise로 인해 생기는 pre-trained model의 downstream task에서의 성능 저하를 mitigate
- Observation: pre-training의 slight label noise는 in-domain에 도움이 되지만, out-of-domain에는 악영향을 끼침
- Analysis: SVE가 적당히 커서 slight label noise가 in-domain에 좋으며, label noise가 커질수록 LSVR이 커지기에 out-of-domain에 악영향을 끼침
- Mitigation: SVE가 커지도록 + LSVR이 작아지는 loss로 MLP를 학습하여, pre-training label noise의 downstream task에 대한 negative impact를 mitigate - TLDR: singular value spectrum을 이용하여 observation 분석 + 이를 이용한 loss로 mitigation
1. Observation
Pre-trained foundation model을 downstream tasks에 fine-tuning하는 pre-training and fine-tuning (PT-FT) 방식이 de-facto standard가 되었음
Large-scale pre-training dataset에는 web에서 수집한 데이터를 포함하고 있기에, label noise가 존재할 수 밖에 없음
Pre-training data의 label noise가 pre-trained model의 downstream tasks performance에 어떠한 영향을 미치는지에 대한 연구는 존재하지 않았는데, 이를 연구한 첫 논문
- Proper noisy labels in pre training (e.g., 5% or 10%) can benefit the performance on ID downstream tasks, while more noise results in inferior results
- The robustness of transferability on OOD downstream tasks constantly deteriorates as the noise increases, even with the improvement in ID tasks on 5% noise
즉, pre-training dataset에서 slight label noise는 ID에 도움을 주지만 OOD에는 안좋다는 counter-intuitive한 observation
2. Analysis
Downstream dataset의 pre-trained feature에 대한 singular value spectrum을 이용하여, 관측한 현상을 empirically analyze
(각 downstream task의 entire test set에 대해 singular value spectrum을 구함)
결론만 말하자면 singular value spectrum을 이용하여 구한 SVE, LSVR로 ID, OOD performance를 각각 해석
SVE는 singular value distribution의 flatness를 측정
(SVE가 클수록 singular value distribution은 flat)
SVE가 크다는 의미 : feature space가 data의 structure를 더 잘 capture함
(이는 discriminated features 때문일 수도 있고, noise memorization 때문일 수 있음)
LSVR은 largest singular value가 singular values sum 중 차지하는 비율을 측정
(LSVR이 클수록 largest singular value가 차지하는 비율이 작아짐)
LSVR이 크다는 의미 : largest singular value에 해당하는 singular vector가 data variation을 잘 capture하지 못함
기존 연구 중, largest singular value에 해당하는 eigenvector가 feature transferability를 dominate함을 발견함
이를 통해, LSVR이 크다면 feature transferability가 낮다라고 말할 수 있음
- SVE & ID tasks
pre-training noise가 커질수록 SVE가 커짐
왜 pre-training dataset의 slight noise가 ID에 도움이 되는가? → slight noise의 SVE가 clean의 SVE보다 커서
data내의 noise를 학습하다보니 feature space의 dimension이 span하게 되는데, 이로 인해 성능이 좋은 것
물론 noise ratio가 증가하게 되면 noisy data structure을 capture하고 memorize하기에, 성능이 감소하게 됨 - LSVR & OOD tasks
pre-training noise가 커질수록 LSVR이 커짐
왜 pre-training dataset의 label noise가 OOD에 악영향을 주는가? → LSVR이 커지기에
즉, noise ratio가 커질수록 less transferable components가 학습되어 unseen OOD tasks에서 성능이 안좋은 것
3. Mitigation
- 배경 : foundation model과 같은 large pre-trained model을 full fine-tuning하는 것은 비용이 너무 비쌈
- 목적 : pre-training에서의 noise가 OOD에서의 성능을 악화시키는 malicious effect를 mitigate하고 싶음
배경과 목적을 고려하여, MLP를 학습하여 pre-trained feature F를 new feature space Z로 transform하여 mitigation
Analysis를 통해 얻은 insight를 이용하여 loss를 설계하고, 이를 이용하여 MLP 학습
(insight : 다양한 feature를 배워야하며, LSVR이 작아야함)
consistency regularization: pre-trained knowledge를 잊지 않고 유지하게끔 하는 loss
covariance regularization: 모델이 다양한 feature를 배우도록 하는 loss
(Barlow Twins, VICReg에서 사용했던 방식, SVE가 커지도록)
dominant singular value regularization: LSVR을 directly maximize하는 loss
위 3가지 regularization을 합한 NMTune loss + CE loss로 학습하면 pre-training label noise로 인한 negative impact를 mitigation할 수 있다라는 것
Vision, language에서도 NMTune이 효과적임을 보임
4. Conclusions
The author's conclusions
Limitation: linear probing이 NMTune보다 성능이 좋은 경우인 failure case가 존재
저자들은 이에 대해 top-K singular values를 optimize하는 SVD regularization을 사용해야하는데, largest singular value만 optimize했기 때문이라고 추측
top-K에서의 K의 optimal value는 dataset마다 다를텐데, K=1이 다양한 tasks에서 보편적으로 좋은 performance를 보이기에 그냥 사용했다고 적혀있음
My Conclusion
Pre-training에서의 slight label noise가 ID downstream 성능에 도움이 되며, OOD downstream 성능에 해가 된다는 observation은 매우 흥미로움
그러나 limitation에도 언급했듯이, NMTune이 LP보다 성능이 안좋은 failure case가 있기에 올바른 metric으로 분석했는가?에 대한 의문이 남아있음
그럼에도 불구하고 새로운 분야 개척 + 흥미로운 observation이라는 조합은 다양한 생각할 거리들을 제공하기에 가치가 있다고 생각함
Rating
Good