ProMix: Combating Label Noise via Maximizing Clean Sample Utility
IJCAI 2023, 16회 인용

현재 learning with noisy labels task에서 1등
Introduction

일반적으로 noisy label을 다루는 방식은
clean/noisy data selection → noisy data는 SSL로 처리
기존 방식(dividemix)에서 선택한 clean data는 FP가 많이 포함되어 있고, label에 대한 불균형 존재
또한 recall값이 낮다 (데이터를 최대한 활용하지 못함)
제안한 promix에서는 이러한 문제를 해결하는게 목적
Proposed method

크게 progressive selection과 debiased SSL로 나뉨
Progressive selection
Class-wise small-loss selection (CSS)

class별로 CE loss가 낮은 k개의 데이터를 clean data로 선별
Matched High Confidence Selection (MHCS)


CSS 통과 이후 남은 데이터들에 대해서 MHCS 진행
max prediction값이 threshold를 넘기고, 해당 prediction이 예측한 lable이 주어진 lable과 일치하는 경우
추가적으로 clean data로 고려
Debiased SSL
Mitigating confirmation bias

confirmation bias를 완화시키기 위해 기본적으로 auxiliary pseudo head(APH)를 둔다.
main head는 clean data로만 CE loss 사용
APH의 역할은 해당 semi supervised loss로 인해 backbone의 representation 성능을 높이는데 기여
Mitigating Distribution Bias

label distribution에 따른 가중치 고려 (rare한 class에는 더 많은 confidence 값 보정)

Distribution은 moving-average style로
Label Guessing by Agreement (LGA)

모델을 2개를 병렬로 학습하여 2개의 모델이 전부 일치하는 경우만 clean data update 하는 방식
Experiment

symmetric noise는 class를 random하게 다른 class로 변경
asymmetric noise는 class를 비슷한 다른 class로 변경
DivideMix 보다 성능이 좋음 (wildfire dataset에서 dividemix로 성능 향상 효과를 봄)
개인적으로 노이즈가 90% 인데 되는게 신기 (pretrained model을 써서 그런가..)

Module 별 성능 비교

확실히 Debias가 성능 향상에 도움을 줌