Task Residual for Tuning Vision-Language Models
CVPR 2023 논문..

기존 VLM 사용하는 방식 정리
크게 Prompt tuning과 Adapter-style tuning으로 나뉨
Prompt tuning의 단점: 기존 CLIP의 결과를 활용하는데 있어 prior knowledge를 잃어버림
1/2 shot learning에서 기존 zero-shot CLIP보다 성능이 떨어짐
Adapter-style tuning의 단점: 기존 결과에 추가적인 layer를 적용하는 방식이기 때문에 아무래도 flexibility가 떨어짐
이러한 단점들을 보완하기 위해
Task residual tuning을 제안 (TaskRes), 결론은 기존 CLIP과 independent한 정보를 추가하여 학습함
Adapter-style

TaskRes

실험

여기서는 regular base classifier와 enhanced base classifier로 테스트 진행
enhanced base classifier: obtained by tuning the text projection layer of CLIP on the target task before starting our task residual tuning

enhanced base classifier를 사용하면 domain generalization 성능은 기존보다 떨어짐
(source dataset에 overfitting)


Text만 적용했을때 제일 성능이 좋음
일반적으로 이미지 임베딩정보가 텍스트 임베딩 정보보다 더 diversity가 높기때문에

요즘 추세는 alpha는 학습하는 걸로..

Transfer difficulty가 높을 수록 task residual magnitude가 증가
Transfer difficulty는 random classifier (1/K) 와 ZS CLIP의 precision 비율로 측정