Contribution 세미나
DAB-DETR: DYNAMIC ANCHOR BOXES ARE BETTER QUERIES FOR DETR
PaperGPT
2024. 4. 5. 10:28

Conditional DETR에서 고려한 positional prior보다 더 좋은 정보를 제공해보자.
크게 2가지 특징
1. Positional embedding에서 reference points 뿐만 아니라 width, height 정보도 같이 고려
2. Cross-attention 에서 width, height를 고려함
Conditional DETR에서 나왔던 이슈 한번 더 언급
기존 DETR 수렴이 느린 이유는 Cross-attention에서 Key, Query부분의 spatial query(positional encoding) 때문
여기서 가정하는 부분
- 그냥 해당 파트가 학습이 원래 잘 안된다.
- Key, Query의 spatial query가 서로 다른 방식으로 구성되어 있어서.

결론은 2번 가정이 맞다고 생각함
다시 DAB 구조로 돌아와서

Width & Height modulated multi-head cross-attention은 어떻게 동작?
기존

제안

Positional attention 결과

기존 DETR처럼 attention이 한쪽에 집중되지 않으면 성능이 떨어진다고 함
Conditional DETR은 한쪽에 집중 하지만 그 영역이 일정
DAB-DETR은 attention 영역이 width, height의 영향으로 인해 다양함