MaPLe: Multi-modal Prompt Learning

Contribution 세미나

PaperGPT 2024. 4. 16. 11:16

Multi-modal prompt learning을 제안

기존 prompt learning은 text prompt에 집중, 본 논문에서는 이미지 prompt를 같이 학습

해당 구조가 가능해지려면 CLIP의 backbone으로 transformer 구조가 사용되야 함

기존 방식 (vision)

기존 방식 (text)

multi-prompt(text)

초기 J개의 layer에 대해서 learnable prompt 사용

multi-prompt(vision)

여기까지는 vision과 text사이에 정보 공유가 없음

Vision Language Prompt Coupling

vision prompt가 text prompt에서 나오도록 변경하여 서로 연관성을 확보

contextual 정보를 align하기 더 쉬워짐