Contribution 세미나

Conditional Prompt Learning for Vision-Language Models

PaperGPT 2024. 4. 15. 15:55

 

CoOp의 단점: prompt를 학습하다보니 unseen class에 대해서 성능이 떨어짐

이를 보완하기위해 conditional prompt 제안

 

 

이미지 임베딩 결과를 meta-net에 통과시켜 meta token을 구함

해당 token값이 기존 context tokens들과 더해져서 prompt 생성

meta-net은 매우 간단한 two-layer 구조
(linear-relu-linear)

 

결과

 

Unseen class에 대해서 더 좋은 성능을 보여줌

 

다른 domain에 대해서 더 좋은 성능을 보여줌

 

기존 CLIP 보다 좋은 성능을 보여줌

 

혹시 단순히 parameter 개수가 많아져서 성능이 좋아진건 아닌지 비교