ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Twin Contrastive Learning with Noisy Labels
    Contribution 세미나 2024. 4. 18. 12:34

    CVPR 2023, 8회 인용

    바로 proposed method 설명

     

    Proposed method

     

    이전 논문과 비슷하게 2가지의 augmentation과, mixup 사용

    backbone을 공유하는 2가지의 head 제안

    각각의 head는 data representation과 prediction을 구하는데 사용

    GMM을 통해 class별 data representation

    clean, wrong 확률 계산

    label에 반영

    mixup 적용

     

    Modeling Data Distribution

     

    K개의 GMM 적용 (k는 class 개수)

    posterior probability 적용 (추후 자세하게 정의)

    GMM 업데이트

    즉 gt label과 상관없이 모델의 prediction 결과를 기반으로 GMM 업데이트 진행됨

     

    Out-Of-Distribution Label Noise Detection

     

    기본 컨셉은 GMM로 구한 cluster와의 거리차이를 기준으로 구한다.

    mu, v 전부 normalized vector이기 때문에 아래식처럼 변경 가능

     

    주어진 label이 clean label일 확률

    이는 데이터의 feature와 gt label에 해당하는 cluster와의 유사도로 측정

    여기서 유사도에 대한 human-threshold를 정해서 clean 여부를 판단할 수 있지만, 이를 다시 새로운 GMM으로 계산해보자

     

    결론은 clean과 noisy에 해당하는 2개의 GMM을 구성하여 위에서 측정한 유사도를 기준으로 업데이트 한다.

    즉 GMM이 학습됨에 따라 자연스럽게 threshold가 정해지는 느낌

    그리고 최종 posterior 확률은 식 8을 통해 구해짐

     

    Cross-supervision with Entropy Regularization

     

    여기서 w는 최종 posterior 확률을 의미, 즉 주어진 데이터의 label이 clean일 확률

    clean일 확률이 높을수록 기존 label, 그렇지 않은 경우 모델 prediction 결과를 label로 고려

     

    해당 label를 활용하여 CE 계산, 다만 서로 다른 augmentation의 label를 따라가도록 유도
    (consistency 고려)

     

    또한 regularization을 고려한 loss 추가

    첫번째 텀은 batch안에서 최대한 골고루 class를 예측하도록

    두번째 텀은 prediction 결과가 하나의 class에 집중되도록 유도

     

    Learning Robust Representations

     

    GMM 입력에 사용되는 feature값을 robust하게 representation 하기 위한 loss 설정 방식

     

    InfoNCE 사용, 같은 이미지에 나온 augmentation 결과는 당기고 나머지는 밀어내도록 학습

    unsupervised 방식이기 때문에 label과 상관없이 discriminative representation을 확보하는게 목적

     

    mixup을 통해 data augmentation

    이를 통한 loss 계산

    첫번째 텀은 prediction 결과에 대한 loss

    두번째 텀은 GMM을 통해 구한 확률에 대한 loss → feature representation과 관련

     

    Experiment result

     

    높은 noise ratio에 대해서 특히 강점을 보임

    이는 해당 알고리즘이 hyper-parameter에 대한 영향이 적고(nosie, data별로 모두 동일한 hyper-parameter 사용), 강한 generalization 성능을 보여준다고 주장

     

    Clean과 noise를 잘 구별한다.

     

    좋은 성능을 보여줌, TCL+의 경우 앞서 구한 clean data로 fine-tuning을 한번 더 함

     

Designed by Tistory.