Contribution 세미나

DaViT: Dual Attention Vision Transformers

PaperGPT 2024. 4. 30. 10:13

ECCV 2022, 176회 인용

 

Introduction

 

 

기존 ViT의 self-attention이 비효율적임, 이를 dual-attention으로 변경하여 성능 향상

 

Proposed method

 

크게 Spatial window multihead attention과 Channel group attention으로 구분

 

Spatial window multihead attention

 

Swin transformer와 유사

patch attention을 계산할때 이미지 전체가 아닌 특정 window 안에서만 비교함

당연히 computation 감소

 

Channel group attention

이전 결과를 transpose 하여 attention을 구함

즉 spatial domain으로 보던걸 channel domain에서 계산함

이전 attention에서는 하나의 patch가 local 영역에 대한 정보를 담고 있다면

해당 attention에서는 하나의 patch가 global 영역에 대한 local channel 정보를 담고 있다고 보면 됨

추가적으로 group convolution과 유사하게, 모든 channel이 아닌 group으로 나눠서 group안에서만 연산 진행

 

Channel group attention의 효과

Channel group attention이전에 top-7 channel에 대한 attention을 구해보면 각각의 channel이 객체의 파트를 담당

Channel group attention이후에는 global 정보를 보기 때문에, 임의의 channel를 봤을때 객체에서 중요한 부분은 선택, 중요하지 않은 부분은 감소시키는 효과를 가져옴

 

다른 알고리즘들과 비교 했을때 stage 별로 attention이 더 유의미한 영역에 치중 되어 있음 (임의의 채널)

 

Experiment result

 

기존 classification 모델 보다 성능이 좋음

 

Channel group attention의 stage별 적용 결과

 

Window, channel attention 순서에 따른 성능 비교