-
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary DetectionContribution 세미나 2024. 4. 18. 10:41
NeurIPS 2022, 66회 인용
지금까지 발표한 논문들을 활용한 논문
논문 1. Detecting Twenty-thousand Classes using Image-level Supervision
-> VLM을 활용한 검출 모델을 학습하는데 classification db가 도움이 된다.논문 2. Class-agnostic Object Detection with Multi-modal Transformer

→ class-agnostic한 object proposal을 써보자 (이전에 max-size box 보단 좋다..)
논문 3. Learning to Segment Every Thing
-> weight transfer function으로 학습을 좀 더 의도에 맞게
Region-based knowledge distillation (RKD) 활용
- Point-wise embedding matching loss

예전에 설명했던 loss, rpn에서 나온 feature를 projection 시킨 임베딩 결과와, CLIP 이미지 임베딩 결과와 유사하게 만드는게 목표
2. Inter-embedding relationship matching loss (IRM)

Top-K개의 proposal의 similarity matrix를 비교 (KxK matrix)
class-agnostic proposal은 text query로 ‘all objects’를 사용 (MAVL 논문에서 사용하는 방식)

기존 detection model에 사용하는 loss와 같이 사용함

t-SNE로 plot한 경우 RKD를 썼을때 더 분별력 있는 데이터 분포를 보여줌
Image-level supervision with pseudo box labels
Classification dataset은 어떻게 활용할지

기존 max-size box는 이전에 설명한대로 박스 안에 여러 class가 섞여 있을 경우가 많음
여기서는 MViT에서 text prompt를 ‘every {category}’ 로 설정하여 생성 (학습 할때)
그 중에서 가장 confidence score가 높은 proposal을 선택




Weight Transfer function
본 논문에서는 이렇게 바로 학습하게 되면 L_1, irm vs L_pms 가 서로 경쟁하게 되어 성능 향상이 생각보다 이루어 지지 않는다고 함
(object-centric alignment vs pseudo labels supervision)따라서 pseudo labels supervision 에서는 projection을 object-centric alignment에서 학습한 weight를 바로 사용하는것이 아닌 weight transfer를 거쳐서 사용

실험




'Contribution 세미나' 카테고리의 다른 글