DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding

Contribution 세미나

DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding

PaperGPT 2024. 4. 15. 14:54

4가지 task를 정의

(a) 기존 object detection, ap로 성능 측정
(b) Referring expression comprehension(REC): text가 나타내는 객체 검출, recall 사용(가장 높은 confidence로 검증)
(c) Phrase grounding: text에서 phrase에 해당하는 객체를 찾는 문제, 해당 phrase는 사전에 정의, phrase당 하나의 객체로 표현
(d) Phrase extraction and grounding (PEG): 객체 검출과 text에서 객체에 대한 phrase를 동시에 검출, CMAP이라는 검증 metric 제안

아래 그림은 부가 설명

해당 논문은 PEG task를 효과적으로 하기 위한 모델 제안

PEG를 효과적으로 하기 위해서 dual query 사용

특징
1. mask2former에서 segmentation 하듯이, text에 대해서 1d segmentation으로 text의 phrase 검출

2. 2가지 형태의 positional query 형성 및 공유

3. text-mask guided cross-attetion 진행: mask2former에서 이전 prediction mask가 다음 layer의 cross attention map에 영향을 주는것과 동일한 컨셉

4. dual qeury의 장점

하나의 query로 두개의 feature 정보를 표현하는 경우 align 문제가 더 어려워짐(단순히 feature 사이의 contrastive learning 뿐만 아니라, box regression 및 phrase localization도 필요하기 때문)

따라서 dual query를 사용하게 되면 같은 pair끼리 비슷한 특징을 가지기에 용이함
-> 그럼 이러한 특징이 실제 regression 성능을 향상 시킬까?
-> 실험을 통해 성능 향상 확인

5. dual IOU 사용

box는 2d, text는 1d regression 문제이기 때문에 밸런스를 맞추기 위해 iou_box에서는 root값 사용

6. loss 사용

기존 box regression은 L1 loss + GIOU loss

text segmentation의 경우

query와 text 사이의 contrastive soft max 사용

주어진 query가 어느 phrase와도 매칭되지 않는 경우 no_phrase feature와 매칭 (negative)

결과