Conditional Prompt Learning for Vision-Language Models

Contribution 세미나

PaperGPT 2024. 4. 15. 15:55

CoOp의 단점: prompt를 학습하다보니 unseen class에 대해서 성능이 떨어짐

이를 보완하기위해 conditional prompt 제안

이미지 임베딩 결과를 meta-net에 통과시켜 meta token을 구함

해당 token값이 기존 context tokens들과 더해져서 prompt 생성

meta-net은 매우 간단한 two-layer 구조
(linear-relu-linear)

결과

Unseen class에 대해서 더 좋은 성능을 보여줌

다른 domain에 대해서 더 좋은 성능을 보여줌

기존 CLIP 보다 좋은 성능을 보여줌

혹시 단순히 parameter 개수가 많아져서 성능이 좋아진건 아닌지 비교