Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
arxiv, 55회 인용
Introduction

Transformer style의 convolution network 구성이 핵심
기존 self attention 부분에서 attention map과 key value사이의 연산과정을
k x k depth-wise conv결과와 value 사이의 Hadamard product로 따라해보자.
(당연히 완전 같진 않음)
Proposed method

ConvNets, Swin transformer과 유사하게 4 stage pyramid structure 사용

각각의 module은 아래와 같이 구성

결국 핵심은 attention map(A)를 구하는 과정
기존 transformer 방식은 query와 key 사이의 global attention을 구하는 과정이였다면
해당 방식은 query와 k x k convolution 사이의 attention을 구하는 과정이라고 볼 수 있다.
(여기서 k 값은 large value 사용)

기존 방식들과의 비교

k 값이 증가할수록 성능 향상, 모델 efficiency 까지 고려하면 11이 적당
Experiment result

기존 보다 좋은 성능을 보여줌

fusion 과정에서 Hadamard product가 element-wise sum 보다 좋은 성능을 보여줌.
추가적으로 A에 추가적인 후처리(sigmoid나 normalization)을 진행한경우 오히려 성능 하락이 있음
이전 방식들과는 다른 경향성을 보임, 그 이유는 찾지 못함… future work로

Downstream task에서도 좋은 성능을 보여줌