DaViT: Dual Attention Vision Transformers
ECCV 2022, 176회 인용
Introduction

기존 ViT의 self-attention이 비효율적임, 이를 dual-attention으로 변경하여 성능 향상
Proposed method

크게 Spatial window multihead attention과 Channel group attention으로 구분
Spatial window multihead attention

Swin transformer와 유사
patch attention을 계산할때 이미지 전체가 아닌 특정 window 안에서만 비교함
당연히 computation 감소
Channel group attention

이전 결과를 transpose 하여 attention을 구함
즉 spatial domain으로 보던걸 channel domain에서 계산함
이전 attention에서는 하나의 patch가 local 영역에 대한 정보를 담고 있다면
해당 attention에서는 하나의 patch가 global 영역에 대한 local channel 정보를 담고 있다고 보면 됨
추가적으로 group convolution과 유사하게, 모든 channel이 아닌 group으로 나눠서 group안에서만 연산 진행

Channel group attention의 효과
Channel group attention이전에 top-7 channel에 대한 attention을 구해보면 각각의 channel이 객체의 파트를 담당
Channel group attention이후에는 global 정보를 보기 때문에, 임의의 channel를 봤을때 객체에서 중요한 부분은 선택, 중요하지 않은 부분은 감소시키는 효과를 가져옴

다른 알고리즘들과 비교 했을때 stage 별로 attention이 더 유의미한 영역에 치중 되어 있음 (임의의 채널)
Experiment result

기존 classification 모델 보다 성능이 좋음

Channel group attention의 stage별 적용 결과

Window, channel attention 순서에 따른 성능 비교