-
CLIPood: Generalizing CLIP to Out-of-DistributionsContribution 세미나 2024. 4. 17. 09:38

OOD generalization을 확보하기 위한 논문, 여기서는 domain shift와 open class 문제에 대해서 다룸 (일반적으로 다루고 있는 문제와 동일)
다만 그 해결방식이 기존 논문과 다름
먼저 CLIP의 text 부분은 image에 비해 그 다양성이 한정되어 있음, 따라서 semantic한 관계가 좀 더 잘 align되어 있다고 여김
이에 반해 이미지는 패턴이 너무 다양함
따라서 본 논문에서는 text encoder를 고정하고 image encoder를 tuning하는게 generalization을 확보하는데 더 유리하다고 판단
무엇보다 prompt learning이 아님Contribution
1. Margin Metric softmax (loss 부분을 변경)
2. Beta moving average (기존 EMA의 catastrophic forgetting을 방지)모델 구조 보다는 모델 학습 방식에 초점을 맞춤 느낌

text사이의 semantic similarity를 활용
Margin Metric softmax

target class와 다른 text 일수록 margin을 크게 둠
-> 이미지 사이의 embedding 정보가 더 멀어지도록 세팅결과적으로 semantic한 관계에 맞춰 align이 되기 때문에 기존보다 generalization 성능을 유지하기 좀 더 유리하다고 판단
Beta moving average



어찌됐든 초기 pre-trained model이 가장 좋은 generalization 성능을 보여주기 때문에
해당 정보를 어느정도 반영하기 위해 BMA 사용
실험 결과

나쁘지 않은 성능을 보여줌


'Contribution 세미나' 카테고리의 다른 글