CLIP-Adapter: Better Vision-Language Models with Feature Adapters

Contribution 세미나

PaperGPT 2024. 4. 16. 10:38

Coop의 경우 text prompt에 집중을 했다면

CLIP-Adapter의 경우 visual, text feature에 집중

단순히 layer를 추가하는건 overfitting을 방지하기 쉽지 않음, 그러나 residual 구조를 활용하면 어느정도 generalization을 보장할 수 있음

단순하게 2 layer 구조 사용 (생각보다 이런식의 구조가 많이 쓰이는 것 같음)

hyper-parameter에 따라 어떻게 비중을 가져 갈지 선택

Loss는 일반적인 cross-entropy

Dataset에 따라서 optimal한 alpha, beta값이 존재, 하지만 매번 값을 찾는건 비효율적

따라서 이것도 같이 학습 해보자

실험

CLIP-Adapter의 성능이 기존 coop보다 좋음

전부 학습하는것 보다 visual adapter만 학습하는게 성능이 더 좋음

red, pink, brown을 비교했을때 CLIP-Adapter가 구별하기 더 쉬움

기존과 domain gap이 많이 발생할 수록 높은 alpha

비슷할수록 낮은 alpha값에서 좋은 성능을 보여줌

실제 optimal한 값도 해당 값으로 수렴