Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling

Contribution 세미나 2024. 4. 16. 10:58

CLIP-Adapter에서는 추가적인 MLP를 학습해야 한다.

TIP-Adapter는 학습할 필요가 없는 MLP(query, key, value를 사용하는 컨셉)를 사용하는 장점.

Cache model을 사용한다.

기존 CLIP-Adapter

TIP-Adapter

few-shot에 사용되는 DB (N-class, K-shot)가 cache model로 활용

test이미지와 DB의 유사도를 판단, 그에 따라 DB에 해당하는 GT 정보를 반영하는 컨셉

근데 여기서 약간의 fine-tuning을 하면 더 좋은 성능을 보여줌

Visual encoder부분만 학습

실험

대신 학습 시간은 엄청 적음

당연하게도 많이 볼수록 성능이 향상

Task Residual for Tuning Vision-Language Models (0)	2024.04.16
Prompt Distribution Learning (0)	2024.04.16
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling (0)	2024.04.16
Localized Latent Updates for Fine-Tuning Vision-Language Models (0)	2024.04.16
Contextual Prompt Learning for Vision-Language Understanding (0)	2024.04.16

심심할때 읽는 논문 심심할때 읽는 논문