-
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge DistillationContribution 세미나 2024. 4. 18. 11:14
ICLR 2023, 11회 인용
Introduction

일반적으로 KD에서 teacher 성능이 좋아지더라도 student 성능이 항상 좋아지지 않았다.
-> teacher model과 student model 사이의 gap이 클수록 KD 성능이 떨어짐Small student is hard to ‘understand’ the high-order semantics extracted by the large model.
사람과 빗대어 표현하면 능숙한 teacher일수록 student에게 적절한 prior knowledge를 주입시키며 가르친다.
이에 영감을 얻어 dynamic prior knowledge(DPK)를 제안
최종적으로 MGD+SimKD의 느낌이 남
Proposed method
logit KD

Feature KD

Total KD

DPK

즉 여기서 prior knowledge 라고 하는건 teacher의 feature를 의미한다.

즉 student feature map에서 일부분은 teacher feature으로 대체한이후 연산하여 나머지 feature map도 teacher feature로 따라갈수 있도록 유도
그럼 여기서 Dynamic이라고 표현하는 이유는?
teacher feature로 대체되는 비율(masking ratio)이 student와 teacher 사이의 similarity로 정해짐

여기서는 minibatch안의 feature set(teacher와 student)들 사이의 similarity를 Centered kernel alignment (CKA)로 구한다.

gram matrix를 사용하여 비교하는것 같음..
즉 둘사이의 gap이 크면 그만큼 많은 양의 prior knowledge(teacher feature map)이 필요.
학습에 따라 그 양이 정해짐
Experiment result

좋은 성능을 보여줌, DKD보다 성능이 좋음

좋은 teacher를 쓸수록 좋은 성능을 보여줌

heterogeneous setting에서도 동작

Mask 비율에 따른 성능 비교

Mask 방식에 따른 성능 비교

여기서 Zero-padding은 기존 MGD 방식
Baseline은 1x1 convolution 사용
Encoder-Decoder는 ViT 기반 encoder-decoder 사용
'Contribution 세미나' 카테고리의 다른 글