-
Jigsaw-ViT: Learning Jigsaw Puzzles in Vision TransformerContribution 세미나 2024. 4. 18. 11:27
Pattern Recognition Letters 166 (2023), 10회 인용
Introduction
Jigsaw 컨셉을 ViT에 활용
self-supervised learning 활용

Jigsaw 컨셉은 image patch들이 주어 졌을때 해당 image patch들의 위치를 찾는 task
기존 방식과의 차별점
- position encoding값을 제거 (나름 정답값이라고 볼 수 있음)
- 랜덤하게 임의의 patch는 mask처리하고 남은 정보들만 가지고 각각의 position 예측
Proposed method
기존 ViT

제안한 방식의 loss

jigsaw loss의 경우 cross entropy 사용, 즉 위치값을 class로 고려하여 loss 계산
각각 patch에 해당하는 정보를 입력으로 MLP를 통과하여 해당 위치를 prediction 한다.
Experiment result

기존 보다 높은 classification 성능을 보여줌
다만 모델이 커질수록 성능 향상폭이 적어지는 느낌

실제 attention map도 더 잘나옴

Noisy dataset에서도 좋은 성능을 보여줌

position embedding을 제외했을 때 더 좋은 성능을 보여줌

mask ratio에 따른 성능 비교
'Contribution 세미나' 카테고리의 다른 글