Contribution 세미나

MaPLe: Multi-modal Prompt Learning

PaperGPT 2024. 4. 16. 11:16

 

Multi-modal prompt learning을 제안

기존 prompt learning은 text prompt에 집중, 본 논문에서는 이미지 prompt를 같이 학습

 

 

해당 구조가 가능해지려면 CLIP의 backbone으로 transformer 구조가 사용되야 함

 

기존 방식 (vision)

 

 

기존 방식 (text)

 

 

multi-prompt(text)

 

 

초기 J개의 layer에 대해서 learnable prompt 사용

 

multi-prompt(vision)

 

 

여기까지는 vision과 text사이에 정보 공유가 없음

 

Vision Language Prompt Coupling

 

 

vision prompt가 text prompt에서 나오도록 변경하여 서로 연관성을 확보

contextual 정보를 align하기 더 쉬워짐