Contribution 세미나

DAB-DETR: DYNAMIC ANCHOR BOXES ARE BETTER QUERIES FOR DETR

PaperGPT 2024. 4. 5. 10:28
 

Conditional DETR에서 고려한 positional prior보다 더 좋은 정보를 제공해보자.

크게 2가지 특징
1. Positional embedding에서 reference points 뿐만 아니라 width, height 정보도 같이 고려

2. Cross-attention 에서 width, height를 고려함

 

Conditional DETR에서 나왔던 이슈 한번 더 언급

기존 DETR 수렴이 느린 이유는 Cross-attention에서 Key, Query부분의 spatial query(positional encoding) 때문

여기서 가정하는 부분

  1. 그냥 해당 파트가 학습이 원래 잘 안된다.
  2. Key, Query의 spatial query가 서로 다른 방식으로 구성되어 있어서.

결론은 2번 가정이 맞다고 생각함

다시 DAB 구조로 돌아와서

Width & Height modulated multi-head cross-attention은 어떻게 동작?

기존

제안

Positional attention 결과

기존 DETR처럼 attention이 한쪽에 집중되지 않으면 성능이 떨어진다고 함

Conditional DETR은 한쪽에 집중 하지만 그 영역이 일정

DAB-DETR은 attention 영역이 width, height의 영향으로 인해 다양함