MDETR - Modulated Detection for End-to-End Multi-Modal Understanding

Contribution 세미나 2024. 4. 17. 09:56

ICCV 2021, 505회 인용

Referring expression에 해당하는 task에서 detection model이 text 정보를 이해하고 검출하는지에 초점

학습에 사용되지 않은 새로운 text 정보를 받아도 이에 해당하는 객체를 찾는게 목표

구조는 간단 DETR에서 vision 정보에 text 정보 추가하여 학습

Flickr30k DB를 사용

text에 맞는 bounding box가 gt로 존재함..

2가지 loss 활용

soft token prediction

bounding box에 해당하는 phrase에 속해있는 token들의 위치를 찾는게 목적
(Vision으로 따지면 objectness 찾는 느낌)

Object query와 text token의 align 과정

Contrastive alignment

object query를 기준으로 loss 계산

text token을 기준으로 loss 계산

실험

COCO, VG, Flickr30k로 pre-training 진행 이후 RefCOCO db로 fine-tuning

Detecting Twenty-thousand Classes using Image-level Supervision (1)	2024.04.17
Class-agnostic Object Detection with Multi-modal Transformer (0)	2024.04.17
Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture (0)	2024.04.17
PromptDet: Towards Open-vocabulary Detection using Uncurated Images (0)	2024.04.17
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation (0)	2024.04.17

심심할때 읽는 논문 심심할때 읽는 논문