-
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language ModelsContribution 세미나 2024. 4. 17. 09:13
NeurIPS 2022, 55회 인용

Contribution:
TTA + Prompt learning 느낌의 논문
entropy를 활용하여 TTA 적용
여기서는 크게 두가지 downstream에 적용
1. Image classification
2. Context-dependent visual reasoning (해당 task는 생략)TPT for image classification

test 이미지를 augmentation하여 prediction의 평균값을 entropy 계산에 활용
결과적으로 entropy를 낮추는 방향으로 prompt를 학습한다.
그렇다면 모든 augmentation의 prediction값을 다 사용하는게 맞는지?
논문에서는 entropy가 낮은 rho-precentile를 추려서 사용

이는 random crop등으로 인해 context 정보가 많이 손실된 경우는 고려할 필요가 없다고 생각
실험결과
대부분의 실험은 domain generalization의 성능을 보기 위한 실험
1. Robustness to Natural Distribution Shifts


TPT의 경우
초기 prompt는 “a photo of a [class]” 로 시작하여
해당 word embedding을 AdamW optimizer로 학습
TPT + Coop은 알다싶이 coop에서 활용하는 learnable prompt 사용
다만 TPT + Coop이 왜 TPT + CoCoop 보다 성능이 좋은지에 대한 분석은 없음
2. Cross-Datasets Generalization

ImageNet으로 학습하고(Coop, CoCoop) 다른 dataset과 비교한 경우
TPT의 경우 학습하지 않고도 좋은 성능을 보여줌

좀 더 극단적인 case,
row dataset이 학습에 사용
column dataset이 테스트에 사용
TPT가 전체적으로 좋은 성능을 보여줌

TTA 컨셉은 prompt 사용할때가 가장 효과적
Augmentation에서 entropy 낮은 순서대로 몇퍼센트 사용하는지에 따른 성능 비교

Augmentation 개수, 학습 step에 따른 성능 비교
'Contribution 세미나' 카테고리의 다른 글
Multi-Prompt with Depth-Partitioned Cross-Modal Learning (0) 2024.04.17 CONSISTENCY-GUIDED PROMPT LEARNING FOR VISION-LANGUAGE MODELS (0) 2024.04.17 LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models (0) 2024.04.16 Visual Prompt Tuning (0) 2024.04.16 MaPLe: Multi-modal Prompt Learning (0) 2024.04.16