-
Contextual Prompt Learning for Vision-Language UnderstandingContribution 세미나 2024. 4. 16. 10:52

CoCoop과 비교, 기존에 이미지 feature를 활용하는 방식은 global feature를 사용했기 때문에 그 효과가 떨어진다고 판단
해당 논문에서는 이를 local feature로 대체하여 성능 향상 시도

전체적인 구조

lightweight network를 사용하여 local feature(여기서는 ViT의 patch에 대한 feature)를 한번 정제함

attention을 구하는 느낌

cosine similarity가 아닌 learnable weight에 대한 곱 연산으로 표현

attention과 context token과의 linear 연산

기존 context token과 더해줌

Prediction
결과

역시 unseen에서 기존 CoCoop보다 좋음

특정 DB에 대해서 성능이 급격하게 떨어짐

해당 DB는 local feature를 뽑는 의미가 없음..
'Contribution 세미나' 카테고리의 다른 글
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling (0) 2024.04.16 Localized Latent Updates for Fine-Tuning Vision-Language Models (0) 2024.04.16 CLIP-Adapter: Better Vision-Language Models with Feature Adapters (0) 2024.04.16 Prompt-aligned Gradient for Prompt Tuning (0) 2024.04.16 Visual-Language Prompt Tuning with Knowledge-guided Context Optimization (0) 2024.04.16