Contribution 세미나

CLIPood: Generalizing CLIP to Out-of-Distributions

PaperGPT 2024. 4. 17. 09:38

 

OOD generalization을 확보하기 위한 논문, 여기서는 domain shift와 open class 문제에 대해서 다룸 (일반적으로 다루고 있는 문제와 동일)

다만 그 해결방식이 기존 논문과 다름

 

먼저 CLIP의 text 부분은 image에 비해 그 다양성이 한정되어 있음, 따라서 semantic한 관계가 좀 더 잘 align되어 있다고 여김
이에 반해 이미지는 패턴이 너무 다양함


따라서 본 논문에서는 text encoder를 고정하고 image encoder를 tuning하는게 generalization을 확보하는데 더 유리하다고 판단
무엇보다 prompt learning이 아님

 

Contribution
1. Margin Metric softmax (loss 부분을 변경)
2. Beta moving average (기존 EMA의 catastrophic forgetting을 방지)

모델 구조 보다는 모델 학습 방식에 초점을 맞춤 느낌

 

text사이의 semantic similarity를 활용

 

Margin Metric softmax

target class와 다른 text 일수록 margin을 크게 둠
-> 이미지 사이의 embedding 정보가 더 멀어지도록 세팅

 

결과적으로 semantic한 관계에 맞춰 align이 되기 때문에 기존보다 generalization 성능을 유지하기 좀 더 유리하다고 판단

 

Beta moving average

 

어찌됐든 초기 pre-trained model이 가장 좋은 generalization 성능을 보여주기 때문에
해당 정보를 어느정도 반영하기 위해 BMA 사용

 

 

실험 결과

 

 

나쁘지 않은 성능을 보여줌