Robust Classification via Regression for Learning with Noisy Labels

Contribution 세미나

PaperGPT 2024. 4. 30. 10:06

ICLR 2024

Introduction

Classification 문제를 regression 문제로 해결하려는 시도

크게 loss reweighting과 label correction을 시도

본 논문에서는 compositional data와 log-ratio transform이라는 개념을 사용

compositional data: 확률과 같이

위의 식을 만족하는 vector들의 집합

해당 vector들은 constrained variable이기 때문에 여러 연산들을 적용할때 제약이 많음

이를 해결하기 위해 unconstrained variable로 transform 시킨 후 원하는 연산을 진행하고 나중에 inverse transform시켜 다시 원래 특성을 유지할 수 있음 (나름 해석하기로는 이와 같이 이해함..)

이러한 transform 방식으로는

세가지가 있는데 본 논문에서는 isometric log-ratio transform (ilr transform)을 사용함

다만 여기서 V는 어떻게 구하는건지 궁금..

Proposed method

class label(one-hot vector)를 smoothing

smoothing한 결과를 ilr transform에 적용

해당 결과를 예측하는 모델 학습

Gaussian noise model 구성

Main network는 gaussian model의 평균, 분산값을 이미지 입력에 따라 구함

loss는 당연히 MLE 사용

(즉 높은 noisy example에 대해서는 높은 variance가 예측이 되면서 자연스럽게 loss를 reweighting 해준다고 생각)

Label correction을 고려하기 위해서 shifted noise model을 사용

여기서 shifted noise (delta)값을 어떻게 예측 할까?

여러 논문들을 참고 했을때, 모델 EMA 결과가 이를 예측하는데 도움을 준다고 함

즉 모델이 EMA 모델의 prediction값을 예측하는게 label correction 효과를 준다고 함 (teacher, student 개념과 유사한건가..?)

다만 hyperparameter를 통해 초기에는 기존 label 학습이 진행될수록 EMA 결과를 예측하도록 가중치를 epoch에 따라 부여한다.

마지막으로 예측된 평균값을 기준으로, inverse transform 적용, classification prediction으로 변환, 이를 가지고 최종 label 판단

Experiment result

성능이 좋음, 다만 아직 Promix 성능이 더 좋긴 함 (20% noise 기준 97.7%)

신기한점은 test 할때 EMA 모델을 쓰는게 더 성능이 좋다고 함