CLIPood: Generalizing CLIP to Out-of-Distributions

Contribution 세미나 2024. 4. 17. 09:38

OOD generalization을 확보하기 위한 논문, 여기서는 domain shift와 open class 문제에 대해서 다룸 (일반적으로 다루고 있는 문제와 동일)

다만 그 해결방식이 기존 논문과 다름

먼저 CLIP의 text 부분은 image에 비해 그 다양성이 한정되어 있음, 따라서 semantic한 관계가 좀 더 잘 align되어 있다고 여김
이에 반해 이미지는 패턴이 너무 다양함

따라서 본 논문에서는 text encoder를 고정하고 image encoder를 tuning하는게 generalization을 확보하는데 더 유리하다고 판단
무엇보다 prompt learning이 아님

Contribution
1. Margin Metric softmax (loss 부분을 변경)
2. Beta moving average (기존 EMA의 catastrophic forgetting을 방지)

모델 구조 보다는 모델 학습 방식에 초점을 맞춤 느낌

text사이의 semantic similarity를 활용

Margin Metric softmax

target class와 다른 text 일수록 margin을 크게 둠
-> 이미지 사이의 embedding 정보가 더 멀어지도록 세팅

결과적으로 semantic한 관계에 맞춰 align이 되기 때문에 기존보다 generalization 성능을 유지하기 좀 더 유리하다고 판단

Beta moving average

어찌됐든 초기 pre-trained model이 가장 좋은 generalization 성능을 보여주기 때문에
해당 정보를 어느정도 반영하기 위해 BMA 사용

실험 결과

나쁘지 않은 성능을 보여줌

PromptDet: Towards Open-vocabulary Detection using Uncurated Images (0)	2024.04.17
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation (0)	2024.04.17
Read-only Prompt Optimization for Vision-Language Few-shot Learning (0)	2024.04.17
DPL: Decoupled Prompt Learning for Vision-Language Models (0)	2024.04.17
PLOT: Prompt Learning with Optimal Transport for Vision-Language Models (0)	2024.04.17

심심할때 읽는 논문 심심할때 읽는 논문