Learning to Prompt for Vision-Language Models

Contribution 세미나

PaperGPT 2024. 4. 15. 15:53

VLM을 downstream task로 사용할 때 prompt를 어떻게 설정하는게 좋을까?

Prompt 설정하는 방식의 base가 되는 논문 느낌..

Prompt의 경우 DB의 특징을 반영하는 단어가 포함되어야 좋은 성능을 보여줌, 이를 메뉴얼하게 튜닝하는건 많은 시간이 소요됨

그리고 실제 이렇게 만든 prompt가 과연 optimal한 prompt일까..?

결국 prompt를 학습하여 좋은 성능을 만들어 보자가 핵심

컨셉

V는 word embeddings vector의 dimension과 동일 (ex. bert 결과)

M개의 context token을 사용

[CLASS]는 학습하고자 하는 class word

학습은 기본적은 cross entropy 사용

해당 논문에서는 2가지 방식 사용

Unified context

모든 class에서 동일한 prompt 사용

Class-specific context

각각 class마다 다른 prompt 사용

추가적으로 [CLASS] token의 위치를 가운데로도 테스트

실험