Contribution 세미나

Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling

PaperGPT 2024. 4. 16. 10:58

 

CLIP-Adapter에서는 추가적인 MLP를 학습해야 한다.

TIP-Adapter는 학습할 필요가 없는 MLP(query, key, value를 사용하는 컨셉)를 사용하는 장점.

Cache model을 사용한다.

 

기존 CLIP-Adapter

 

TIP-Adapter

 

few-shot에 사용되는 DB (N-class, K-shot)가 cache model로 활용

 

 

test이미지와 DB의 유사도를 판단, 그에 따라 DB에 해당하는 GT 정보를 반영하는 컨셉

 

 

근데 여기서 약간의 fine-tuning을 하면 더 좋은 성능을 보여줌

 

 

Visual encoder부분만 학습

 

실험

 

대신 학습 시간은 엄청 적음

 

 

당연하게도 많이 볼수록 성능이 향상