Contribution 세미나

Localized Latent Updates for Fine-Tuning Vision-Language Models

PaperGPT 2024. 4. 16. 10:54

기존 CLIP Adapter의 개선된 버젼

 

 

기존 CLIP Adapter에서는 적절한 alpha값을 찾는게 중요

하지만 모든 이미지에 대해서 동일한 alpha값을 적용하는건 비효율적이다고 판단

이미지에 따라서 적절한 alpha값을 구해 적용해보자!

 

 

Fine-tuning에 사용한 데이터셋 D와 비슷한 이미지일수록 높은 alpha → 기존 fine-tuning한 모델 결과를 더 신뢰

 

 

만약에 데이터셋 D가 너무 많은 이미지를 포함한 경우는 clustering을 사용해서 줄임

여기서 g에 대한 함수는 linear model

 

학습할 때 기존 loss에 regularization term 추가

 

fine-tuning된 결과가 기존 CLIP결과와 크게 벗어 나지 않도록 가이드

 

실험

 

처음으로 base class에 대한 성능이 기존 Coop보다 좋아짐

 

 

다만 domain generalization 능력은 CoCoop보다 떨어짐

(여기서는 image와 text 임베딩을 전부 fine-tuning 하기 때문에 상대적으로 domain shift가 발생한다고 함)