PLOT: Prompt Learning with Optimal Transport for Vision-Language Models


Motivation: 이미지안에 하나의 카테고리는 다양한 특징들을 포함하고 있다
이를 표현하기 위해서는 multi prompt가 사용되어야 한다.
하지만 multi prompt를 쓰더라도 최종 visual feature의 global 정보만 가지고 비교한다면 결국 multi prompt의 역할이 전부 비슷해질 가능성이 크다.
이를 효과적으로 다루기 위해서 local feature 사용을 고려함

Contribution: Feature set(local feature)과 Prompt set 사이의 matching을 위해 Optimal Transport Distance 사용
Optimal Transport Distance


Cost를 최소화 하는 weight를 찾는게 목표
Weight는 feature와 prompt사이의 연관성을 의미 한다고 보면 됨
해당 Cost를 최소화 하기 위한 식

당연히 각각 instance별 weight의 합은 1이 되어야 함
근데 이걸 풀려고 하면 시간이 좀 걸려서 Sinkhorn distance 사용

구하고자하는 weight들에 약간의 제약을 추가, entropy 개념 추가, 즉 weight들이 골고루 분산되는 방향으로 학습을 유도
(성능 개선 보단 빠른 optimization을 위한 방안)

위에 식처럼 iterative 하게 업데이트 가능해짐
최종적으로 2 stage 형식으로 학습 진행
1 stage: 주어진 feature, prompt로 Optimal Transport Distance 계산
2 stage: 해당 Optimal Transport Distance값으로 loss 설정 및 prompt 업데이트

학습 과정

실험 결과


다른 prompt가 다른 특징들을 표현하고 있음