-
Class-agnostic Object Detection with Multi-modal TransformerContribution 세미나 2024. 4. 17. 09:58
ECCV 2022, 38회 인용

목적: class-agnostic object detector를 만들자
즉 novel object를 잘 찾아보자
이전 논문들과 마찬가지로 image-text pair db에서 둘 사이의 연관성을 잘 학습해보자

논문에서 모델 구조에 대한 설명이 매우 불친절… 식이 하나도 없음.. GPV-1, MDETR을 어느정도 알아야 이해가능하도록 작성한 느낌
Contribution:
- multi scale 사용
기존 방식은 최종 layer의 feature를 사용, MViT에서는 Multiscale attention ViT with Late fusion(MAVL) 사용
결론은 deformable detr에서 사용하는 방식 그대로 활용 - Late fusion
본 논문에서는 MDETR같은 경우 미리 concat하여 transformer에 넣어주게 되면 이미지의 spatial한 정보가 text로 인해 망가질수 있다고 생각함
따라서 어느정도 vision transformer(DETR)을 통과하고 난 이후의 feature 정보를 text와 fusion 해야 이러한 정보 손실이 덜 일어남
또한 이렇게 뒷단에 late fusion transformer을 연결하는건 요즘 vision-language fusion work에서 많이 사용된다고 함 (ViLBERT 처럼.. 다만 ref가 달린 논문 전부 2019년도 논문..)
추가적으로 soft token loss(MDETR과 동일한 loss)만 사용하고 contrastive loss는 사용하지 않음, 아마 여기서는 objectness만 고려하기 때문에..
실험

학습은 Flickr30k, MS-COCO, Visual Genome으로 (MDETR가 동일)
제안한 MAVL이 제일 좋은 성능을 보여줌

학습에 적게 사용된 class에서도 좋은 성능을 보여줌

text prompt에 따른 성능 비교

prompt에 small object를 넣어주면 실제 작은 객체를 더 잘 찾음
'Contribution 세미나' 카테고리의 다른 글
- multi scale 사용