Contribution 세미나

PromptDet: Towards Open-vocabulary Detection using Uncurated Images

PaperGPT 2024. 4. 17. 09:51

ECCV 2022, 49회 인용

 

 

Open-vocabulary object detection 논문

 

 

Regional prompt learning 제안

이전 논문들과 비슷하게 ROI로 추출한 이미지 feature와 text feature 사이에 similarity 고려
약간 다른점은 이전 논문들은 learnable prompt와 detection model을 한번에 학습 했다면 (KD loss + CE)
여기서는 먼저 learnable prompt를 따로 학습 (Crop된 이미지를 사용)

특이점은 learnable prompt를 학습할 때 description 정보를 활용

 

 

Alignment via Self-training

 

unlabeled data도 학습에 활용 (semi-supervised leanring과 비슷)

 

Stage-II

앞서 학습된 prompt 활용
unlabeled data에서 해당 category와 similarity가 높은 이미지들을 학습에 사용
(novel class별 Top-K 선택)

 

Stage-III

base+novel class 같이 학습, detection model이 학습됨

추후 iterative 하게 학습되는건 stage I, II가 반복 마지막에 stage III 학습

 

실험 결과