Deep Learning
-
[논문세미나] Knowledge Distillation via the Target-aware TransformerContribution 세미나/Knowledge distillation 2024. 1. 21. 17:36
CVPR 2022, 65회 인용 Introduction 기존의 feature기반의 knowledge distillation의 경우 one-to-one spatial matching을 한다. (feature map에서 같은 위치는 같은 값을 가지도록) 다만 teacher와 student 구조의 경우 같은 feature resolution을 가지더라도 receptive field가 다르다. 따라서 서로 보는 영역이 다르기 때문에 semantic mismatch를 일으키고 이는 sub-optimal한 결과를 가져온다. 본 논문은 이를 해결하기 위해 one-to-all spatial matching을 제안한다. 이를 target-aware transformer라고 부른다. Contribution 1. Targe..