-
Twin Contrastive Learning with Noisy LabelsContribution 세미나 2024. 4. 18. 12:34
CVPR 2023, 8회 인용
바로 proposed method 설명
Proposed method

이전 논문과 비슷하게 2가지의 augmentation과, mixup 사용
backbone을 공유하는 2가지의 head 제안
각각의 head는 data representation과 prediction을 구하는데 사용
GMM을 통해 class별 data representation
clean, wrong 확률 계산
label에 반영
mixup 적용
Modeling Data Distribution
K개의 GMM 적용 (k는 class 개수)

posterior probability 적용 (추후 자세하게 정의)

GMM 업데이트

즉 gt label과 상관없이 모델의 prediction 결과를 기반으로 GMM 업데이트 진행됨
Out-Of-Distribution Label Noise Detection
기본 컨셉은 GMM로 구한 cluster와의 거리차이를 기준으로 구한다.

mu, v 전부 normalized vector이기 때문에 아래식처럼 변경 가능

주어진 label이 clean label일 확률

이는 데이터의 feature와 gt label에 해당하는 cluster와의 유사도로 측정
여기서 유사도에 대한 human-threshold를 정해서 clean 여부를 판단할 수 있지만, 이를 다시 새로운 GMM으로 계산해보자

결론은 clean과 noisy에 해당하는 2개의 GMM을 구성하여 위에서 측정한 유사도를 기준으로 업데이트 한다.
즉 GMM이 학습됨에 따라 자연스럽게 threshold가 정해지는 느낌
그리고 최종 posterior 확률은 식 8을 통해 구해짐
Cross-supervision with Entropy Regularization

여기서 w는 최종 posterior 확률을 의미, 즉 주어진 데이터의 label이 clean일 확률
clean일 확률이 높을수록 기존 label, 그렇지 않은 경우 모델 prediction 결과를 label로 고려

해당 label를 활용하여 CE 계산, 다만 서로 다른 augmentation의 label를 따라가도록 유도
(consistency 고려)
또한 regularization을 고려한 loss 추가
첫번째 텀은 batch안에서 최대한 골고루 class를 예측하도록
두번째 텀은 prediction 결과가 하나의 class에 집중되도록 유도
Learning Robust Representations
GMM 입력에 사용되는 feature값을 robust하게 representation 하기 위한 loss 설정 방식

InfoNCE 사용, 같은 이미지에 나온 augmentation 결과는 당기고 나머지는 밀어내도록 학습
unsupervised 방식이기 때문에 label과 상관없이 discriminative representation을 확보하는게 목적
mixup을 통해 data augmentation

이를 통한 loss 계산

첫번째 텀은 prediction 결과에 대한 loss
두번째 텀은 GMM을 통해 구한 확률에 대한 loss → feature representation과 관련
Experiment result

높은 noise ratio에 대해서 특히 강점을 보임
이는 해당 알고리즘이 hyper-parameter에 대한 영향이 적고(nosie, data별로 모두 동일한 hyper-parameter 사용), 강한 generalization 성능을 보여준다고 주장

Clean과 noise를 잘 구별한다.

좋은 성능을 보여줌, TCL+의 경우 앞서 구한 clean data로 fine-tuning을 한번 더 함


'Contribution 세미나' 카테고리의 다른 글