Instance-Wise Adaptive Tuning and Caching for Vision-Language Models

Contribution 세미나

PaperGPT 2024. 4. 16. 11:12

기존 방식들을 크게 2가지 형태로 분류 및 단점 정리

Input-level prompt style: 기존 CLIP 정보를 잃어버림

Feature-level adapter style: 새로운 데이터에 대한 learning capacity가 떨어짐

무엇보다 두가지 방식은 text encoder가 한번 계산되면 변하지 않음 → 이미지 특성을 적용하지 않음

해당 논문은 two-branch model을 제안

하나는 learnable visual cache를 사용 (TIP-Adapter와 비슷)

다른 하나는 confitionNet 사용 (CoCoop과 비슷)

먼저 learnable visual cache 사용 부분

기존 TIP-Adapter-F는 visual cache 자체를 fine-tuning 했다면 여기서는 visual biases를 학습하는 방향으로 튜닝

ConditionNet부분

vision embedding 정보를 기반으로 textual biases를 계산
(TaskRes에서는 해당 biases를 learnable parameter로 두었다면 해당 논문은 이를 vision embedding에 따라 다르게 구성)

어떻게 보면 TIP-Adapter + CoCoop + TaskRes를 적절하게 합친 느낌

실험