Twin Contrastive Learning with Noisy Labels

Contribution 세미나

PaperGPT 2024. 4. 18. 12:34

CVPR 2023, 8회 인용

바로 proposed method 설명

Proposed method

이전 논문과 비슷하게 2가지의 augmentation과, mixup 사용

backbone을 공유하는 2가지의 head 제안

각각의 head는 data representation과 prediction을 구하는데 사용

GMM을 통해 class별 data representation

clean, wrong 확률 계산

label에 반영

mixup 적용

Modeling Data Distribution

K개의 GMM 적용 (k는 class 개수)

posterior probability 적용 (추후 자세하게 정의)

GMM 업데이트

즉 gt label과 상관없이 모델의 prediction 결과를 기반으로 GMM 업데이트 진행됨

Out-Of-Distribution Label Noise Detection

기본 컨셉은 GMM로 구한 cluster와의 거리차이를 기준으로 구한다.

mu, v 전부 normalized vector이기 때문에 아래식처럼 변경 가능

주어진 label이 clean label일 확률

이는 데이터의 feature와 gt label에 해당하는 cluster와의 유사도로 측정

여기서 유사도에 대한 human-threshold를 정해서 clean 여부를 판단할 수 있지만, 이를 다시 새로운 GMM으로 계산해보자

결론은 clean과 noisy에 해당하는 2개의 GMM을 구성하여 위에서 측정한 유사도를 기준으로 업데이트 한다.

즉 GMM이 학습됨에 따라 자연스럽게 threshold가 정해지는 느낌

그리고 최종 posterior 확률은 식 8을 통해 구해짐

Cross-supervision with Entropy Regularization

여기서 w는 최종 posterior 확률을 의미, 즉 주어진 데이터의 label이 clean일 확률

clean일 확률이 높을수록 기존 label, 그렇지 않은 경우 모델 prediction 결과를 label로 고려

해당 label를 활용하여 CE 계산, 다만 서로 다른 augmentation의 label를 따라가도록 유도
(consistency 고려)

또한 regularization을 고려한 loss 추가

첫번째 텀은 batch안에서 최대한 골고루 class를 예측하도록

두번째 텀은 prediction 결과가 하나의 class에 집중되도록 유도

Learning Robust Representations

GMM 입력에 사용되는 feature값을 robust하게 representation 하기 위한 loss 설정 방식

InfoNCE 사용, 같은 이미지에 나온 augmentation 결과는 당기고 나머지는 밀어내도록 학습

unsupervised 방식이기 때문에 label과 상관없이 discriminative representation을 확보하는게 목적

mixup을 통해 data augmentation

이를 통한 loss 계산

첫번째 텀은 prediction 결과에 대한 loss

두번째 텀은 GMM을 통해 구한 확률에 대한 loss → feature representation과 관련

Experiment result

높은 noise ratio에 대해서 특히 강점을 보임

이는 해당 알고리즘이 hyper-parameter에 대한 영향이 적고(nosie, data별로 모두 동일한 hyper-parameter 사용), 강한 generalization 성능을 보여준다고 주장

Clean과 noise를 잘 구별한다.

좋은 성능을 보여줌, TCL+의 경우 앞서 구한 clean data로 fine-tuning을 한번 더 함