카테고리 없음
Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model
PaperGPT
2024. 4. 17. 09:45
CVPR 2022, 124회 인용
Prompt를 사용한 OD

어제 설명한 ViLD와 구조는 유사함, 컨셉도 비슷
Contribution
- Negative class를 learnable prompt로 고려하는 것보다 효과적인 방안 제시
- Proposal 안에 포함된 객체는 부분만 보일수 있는데 이것을 어떻게 고려할지
- Learnable prompt 사용
ViLD에서는 negative proposal들에 대해서 하나의 learnable negative vector로 학습하려고 함
하지만 negative에는 다양한 객체 혹은 특징들이 포함되어 있는데 이를 하나의 prompt로 학습하려고 하는건 비효율적이라고 판단
따라서 본 논문에서는 negative sample이 들어왔을때 어떤 positive class에 대해서도 prediction값이 작아지도록 유도
-> entropy를 높이는 방향(개인적 해석)

Proposal 안에 객체와의 다양한 IOU존재, 이를 하나의 prompt (a photo of a [class]) 로 표현하기에는 일관성이 떨어짐
따라서 본 논문에서는 IOU별로 K개의 group으로 나눠서 multi group prompt로 학습
Inference할때는 K group의 평균값을 사용

실험 결과

ViLD보다 성능이 좋음, 또한 기존 supervised learning보다 성능이 좋음

negative 고려하는 방식

비율

학습 data 방식

Group 방식