-
RegionCLIP: Region-based Language-Image PretrainingContribution 세미나 2024. 4. 5. 15:43

기존 CLIP은 전체 이미지와 text사이의 유사도로 학습이 됨 (image-text matching)
따라서 region proposal에서는 좋은 성능을 보여주지 못함
해당 논문은 region proposal에 적합한 CLIP을 만드는게 목표 (region-text matching)

우선 목표는 region-text matching을 위해 추가적인 human annotation을 사용하지 말자.
region에 맞는 새로운 visual encoder 학습Process
1. 기존 text prompt에서 단어에 해당하는 정보 추출 (using off-the-shelf language parsers) → concept pool2. 해당 단어를 기준으로 다양한 prompt 생성 → region descriptions
3. 기존 CLIP의 VL 사용하여 region에 대한 pseudo label 생성
4. 두가지 loss로 새로운 visual encoder 학습
contrastive loss
distillation loss

초기 visual encoder값은 기존 CLIP의 visual encoder값 사용하여 학습 한다.
5. 최종적으로 detection을 위한 transfer learning 진행
앞서 학습된 visual encoder를 초기값으로 사용
human label에 fine-tuning 하는 방식
'Contribution 세미나' 카테고리의 다른 글
Detecting Everything in the Open World: Towards Universal Object Detection (0) 2024.04.15 DensePose From WiFi (0) 2024.04.15 Learning Open-World Object Proposals without Learning to Classify (0) 2024.04.05 Perceiver: General Perception with Iterative Attention (0) 2024.04.05 Florence: A New Foundation Model for Computer Vision (0) 2024.04.05