Contribution 세미나

Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

PaperGPT 2024. 4. 30. 10:16

arxiv, 55회 인용

 

Introduction

 

Transformer style의 convolution network 구성이 핵심

기존 self attention 부분에서 attention map과 key value사이의 연산과정을

k x k depth-wise conv결과와 value 사이의 Hadamard product로 따라해보자.

(당연히 완전 같진 않음)

 

Proposed method

 

ConvNets, Swin transformer과 유사하게 4 stage pyramid structure 사용

 

각각의 module은 아래와 같이 구성

 

결국 핵심은 attention map(A)를 구하는 과정

기존 transformer 방식은 query와 key 사이의 global attention을 구하는 과정이였다면

해당 방식은 query와 k x k convolution 사이의 attention을 구하는 과정이라고 볼 수 있다.

(여기서 k 값은 large value 사용)

 

기존 방식들과의 비교

k 값이 증가할수록 성능 향상, 모델 efficiency 까지 고려하면 11이 적당

 

Experiment result

 

기존 보다 좋은 성능을 보여줌

 

fusion 과정에서 Hadamard product가 element-wise sum 보다 좋은 성능을 보여줌.

추가적으로 A에 추가적인 후처리(sigmoid나 normalization)을 진행한경우 오히려 성능 하락이 있음

이전 방식들과는 다른 경향성을 보임, 그 이유는 찾지 못함… future work로

 

Downstream task에서도 좋은 성능을 보여줌