카테고리 없음

Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

PaperGPT 2024. 4. 17. 09:45

CVPR 2022, 124회 인용

Prompt를 사용한 OD

 

 

어제 설명한 ViLD와 구조는 유사함, 컨셉도 비슷

Contribution

  1. Negative class를 learnable prompt로 고려하는 것보다 효과적인 방안 제시
  2. Proposal 안에 포함된 객체는 부분만 보일수 있는데 이것을 어떻게 고려할지
  3. Learnable prompt 사용

ViLD에서는 negative proposal들에 대해서 하나의 learnable negative vector로 학습하려고 함
하지만 negative에는 다양한 객체 혹은 특징들이 포함되어 있는데 이를 하나의 prompt로 학습하려고 하는건 비효율적이라고 판단
따라서 본 논문에서는 negative sample이 들어왔을때 어떤 positive class에 대해서도 prediction값이 작아지도록 유도
-> entropy를 높이는 방향(개인적 해석)

 

 

Proposal 안에 객체와의 다양한 IOU존재, 이를 하나의 prompt (a photo of a [class]) 로 표현하기에는 일관성이 떨어짐
따라서 본 논문에서는 IOU별로 K개의 group으로 나눠서 multi group prompt로 학습
Inference할때는 K group의 평균값을 사용

 

 

실험 결과

 

 

ViLD보다 성능이 좋음, 또한 기존 supervised learning보다 성능이 좋음

 

 

negative 고려하는 방식

 

비율

 

 

학습 data 방식

 

Group 방식