Learning to Bootstrap for Combating Label Noise

Contribution 세미나 2024. 4. 29. 10:41

ICLR 2024 Conference Submission, 5회 인용

Preliminary

Noisy한 학습 DB와 clean한 소량의 validation set이 있다는 가정 (어떻게보면 현재 wildfire dataset과 유사한 환경)

모델의 prediction 결과로 pseudo label을 설정할 수 있음

보통 학습 DB에서 noisy label과 pseudo label과의 조합으로 label을 정제한다.

여기서 beta값은 hyper parameter, noise의 정도, DB에 따라 optimal한 값이 다르다.

본 논문에서는 beta(+alpha)값을 data마다 learnable parameter로 설정하고, 이를 같이 학습해서 성능을 향상 시킨다.

Proposed method

alpha, beta가 주어졌을때 학습 데이터에 대한 loss 설정

alpha+beta = 1이면 2번식과 동일

(alpha, beta에 적절한 constraint를 주어야 convergence 가능)

다만 우리의 목적은 optimal한 target을 찾기보다는 성능이 좋은 모델을 찾는게 궁극적인 목적

본 논문에서는 alpha, beta > 0 조건 사용 (해당 조건이 결과적으로 성능이 더 좋음)

alpha, beta에 따른 optimal한 모델을 구할 수 있고, 그때 validation data에 대해서 loss가 최소가 되는 alpha, beta를 구한다.

다만 모든 step 마다 4번식을 optimization 하려고 하면 너무 cost가 많이 듬, 이를 효과적으로 해보자

Online Approximation

batch 단위 gradient descent로 모델 파라미터 업데이트

alpha, beta도 마찬가지로 1 step gradient descent 진행 (원래대로라면 많은 epoch을 돌려야 함)

다만 항상 alpha, beta의 초기값은 0으로…

non-negative를 위해 한번 후처리 진행

학습 과정의 안정성을 위해 normalization 진행 (batch 단위로)

이렇게 구한 alpha, beta로 모델 파라미터 한번 더 학습

이렇게 세팅한 경우

step이 지날수록 어떤 batch에 대해서도 validation loss가 점차적으로 감소한다고 증명

Experiment result

기존 방식보다 성능이 좋음

L2B의 경우 기존 방식보다 noisy overfitting을 막아줌

alpha, beta 조건에 따른 성능 차이

pseudo label의 quality가 좋아질수록 beta값이 자동적으로 증가

Class-Dependent Label-Noise Learning with Cycle-Consistency Regularization (0)	2024.04.29
Mitigating Memorization of Noisy Labels by Clipping the Model Prediction (0)	2024.04.29
Estimating Instance-dependent Bayes-label Transition Matrix using a Deep Neural Network (0)	2024.04.26
Learning with Bounded Instance- and Label-dependent Label Noise (1)	2024.04.26
Twin Contrastive Learning with Noisy Labels (0)	2024.04.18

심심할때 읽는 논문 심심할때 읽는 논문