Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

Contribution 세미나

PaperGPT 2024. 4. 18. 10:41

NeurIPS 2022, 66회 인용

지금까지 발표한 논문들을 활용한 논문

논문 1. Detecting Twenty-thousand Classes using Image-level Supervision
-> VLM을 활용한 검출 모델을 학습하는데 classification db가 도움이 된다.

논문 2. Class-agnostic Object Detection with Multi-modal Transformer

→ class-agnostic한 object proposal을 써보자 (이전에 max-size box 보단 좋다..)

논문 3. Learning to Segment Every Thing
-> weight transfer function으로 학습을 좀 더 의도에 맞게

Region-based knowledge distillation (RKD) 활용

예전에 설명했던 loss, rpn에서 나온 feature를 projection 시킨 임베딩 결과와, CLIP 이미지 임베딩 결과와 유사하게 만드는게 목표

2. Inter-embedding relationship matching loss (IRM)

Top-K개의 proposal의 similarity matrix를 비교 (KxK matrix)

class-agnostic proposal은 text query로 ‘all objects’를 사용 (MAVL 논문에서 사용하는 방식)

기존 detection model에 사용하는 loss와 같이 사용함

t-SNE로 plot한 경우 RKD를 썼을때 더 분별력 있는 데이터 분포를 보여줌

Image-level supervision with pseudo box labels

Classification dataset은 어떻게 활용할지

기존 max-size box는 이전에 설명한대로 박스 안에 여러 class가 섞여 있을 경우가 많음

여기서는 MViT에서 text prompt를 ‘every {category}’ 로 설정하여 생성 (학습 할때)

그 중에서 가장 confidence score가 높은 proposal을 선택

Weight Transfer function

본 논문에서는 이렇게 바로 학습하게 되면 L_1, irm vs L_pms 가 서로 경쟁하게 되어 성능 향상이 생각보다 이루어 지지 않는다고 함
(object-centric alignment vs pseudo labels supervision)

따라서 pseudo labels supervision 에서는 projection을 object-centric alignment에서 학습한 weight를 바로 사용하는것이 아닌 weight transfer를 거쳐서 사용

실험