-
Read-only Prompt Optimization for Vision-Language Few-shot LearningContribution 세미나 2024. 4. 17. 09:35

16-shot leanring을 10번 반복해서 표준편차를 확인해보니
기존 Coop, CoCoop의 경우 linear probing보다 편차가 크다.
이는 prompt로 인한 internal representation shift가 발생하여 생기는 문제이를 해결하기 위한 방안 제시
(사실상 이전 DPL 논문과 유사)
결과적으로 기존 vision, text 정보들을 유지한체 prompt 정보만 영향을 받도록 attention 설정


기존 방식과 다른 점은, learnable prompt 하나가 ViT에서 cls 토큰 역할을 하는것처럼 고려
즉 기존에는 vision, text에서 나온 결과(그림에서 노란색 박스)를 가지고 유사도를 계산했다면
여기서는 learnable prompt 각각마다 유사도를 계산함
(원래 transformer기반 CLIP은 이렇게 사용하는것 같기도..)따라서 learnable prompt의 초기값을 cls 토큰의 값으로 설정

실험결과

최근 논문 성능보다는 약간 떨어짐 (지금까지 본 논문들은 약 79이상의 H값을 가짐)


'Contribution 세미나' 카테고리의 다른 글
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation (0) 2024.04.17 CLIPood: Generalizing CLIP to Out-of-Distributions (0) 2024.04.17 DPL: Decoupled Prompt Learning for Vision-Language Models (0) 2024.04.17 PLOT: Prompt Learning with Optimal Transport for Vision-Language Models (0) 2024.04.17 Multi-Prompt with Depth-Partitioned Cross-Modal Learning (0) 2024.04.17