ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ProMix: Combating Label Noise via Maximizing Clean Sample Utility
    카테고리 없음 2024. 4. 18. 11:24

    IJCAI 2023, 16회 인용

     

     

    현재 learning with noisy labels task에서 1등

     

    Introduction

     

    일반적으로 noisy label을 다루는 방식은

    clean/noisy data selection → noisy data는 SSL로 처리

    기존 방식(dividemix)에서 선택한 clean data는 FP가 많이 포함되어 있고, label에 대한 불균형 존재

    또한 recall값이 낮다 (데이터를 최대한 활용하지 못함)

    제안한 promix에서는 이러한 문제를 해결하는게 목적

     

    Proposed method

     

    크게 progressive selection과 debiased SSL로 나뉨

     

    Progressive selection

     

    Class-wise small-loss selection (CSS)

    class별로 CE loss가 낮은 k개의 데이터를 clean data로 선별

     

    Matched High Confidence Selection (MHCS)

     

     

    CSS 통과 이후 남은 데이터들에 대해서 MHCS 진행

    max prediction값이 threshold를 넘기고, 해당 prediction이 예측한 lable이 주어진 lable과 일치하는 경우

    추가적으로 clean data로 고려

     

    Debiased SSL

     

    Mitigating confirmation bias

    confirmation bias를 완화시키기 위해 기본적으로 auxiliary pseudo head(APH)를 둔다.

    main head는 clean data로만 CE loss 사용

    APH의 역할은 해당 semi supervised loss로 인해 backbone의 representation 성능을 높이는데 기여

     

    Mitigating Distribution Bias

    label distribution에 따른 가중치 고려 (rare한 class에는 더 많은 confidence 값 보정)

     

    Distribution은 moving-average style로

     

    Label Guessing by Agreement (LGA)

    모델을 2개를 병렬로 학습하여 2개의 모델이 전부 일치하는 경우만 clean data update 하는 방식

     

    Experiment

     

    symmetric noise는 class를 random하게 다른 class로 변경

    asymmetric noise는 class를 비슷한 다른 class로 변경

    DivideMix 보다 성능이 좋음 (wildfire dataset에서 dividemix로 성능 향상 효과를 봄)

    개인적으로 노이즈가 90% 인데 되는게 신기 (pretrained model을 써서 그런가..)

     

    Module 별 성능 비교

     

    확실히 Debias가 성능 향상에 도움을 줌

Designed by Tistory.