-
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language ModelingContribution 세미나 2024. 4. 16. 10:58

CLIP-Adapter에서는 추가적인 MLP를 학습해야 한다.
TIP-Adapter는 학습할 필요가 없는 MLP(query, key, value를 사용하는 컨셉)를 사용하는 장점.
Cache model을 사용한다.
기존 CLIP-Adapter


TIP-Adapter
few-shot에 사용되는 DB (N-class, K-shot)가 cache model로 활용



test이미지와 DB의 유사도를 판단, 그에 따라 DB에 해당하는 GT 정보를 반영하는 컨셉

근데 여기서 약간의 fine-tuning을 하면 더 좋은 성능을 보여줌

Visual encoder부분만 학습
실험


대신 학습 시간은 엄청 적음

당연하게도 많이 볼수록 성능이 향상
'Contribution 세미나' 카테고리의 다른 글
Task Residual for Tuning Vision-Language Models (0) 2024.04.16 Prompt Distribution Learning (0) 2024.04.16 Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling (0) 2024.04.16 Localized Latent Updates for Fine-Tuning Vision-Language Models (0) 2024.04.16 Contextual Prompt Learning for Vision-Language Understanding (0) 2024.04.16