Transformer
-
[논문세미나] Knowledge Distillation via the Target-aware TransformerContribution 세미나/Knowledge distillation 2024. 1. 21. 17:36
CVPR 2022, 65회 인용 Introduction 기존의 feature기반의 knowledge distillation의 경우 one-to-one spatial matching을 한다. (feature map에서 같은 위치는 같은 값을 가지도록) 다만 teacher와 student 구조의 경우 같은 feature resolution을 가지더라도 receptive field가 다르다. 따라서 서로 보는 영역이 다르기 때문에 semantic mismatch를 일으키고 이는 sub-optimal한 결과를 가져온다. 본 논문은 이를 해결하기 위해 one-to-all spatial matching을 제안한다. 이를 target-aware transformer라고 부른다. Contribution 1. Targe..
-
[논문 세미나] Tracking People with 3D RepresentationsContribution 세미나/Pose estimation 2024. 1. 1. 22:02
NeurIPS 2021, 21회 Introduction 3d 정보를 활용한 People tracking 논문. tracking 할때 2d 정보보다 3d 정보가 유리. 두 사람 사이에 overlap이 발생했을 때 2d 정보보다 3d 정보를 가지고 있는게 두 사람을 구분하는데 더 유리하다. 또한, 3d appearance는 2d appearance와 다르게 viewpoint와 pose 변화에 덜 민감하다. Contribution 기존 HMR방식(SMPL모델의 pose, viewpoint를 예측하는 논문)에서 3d appearance 정보를 추가 예측하도록(이전 세미나에서 texture flow를 사용한 방식) 모델 구성 Proposed method 전체적인 구조는 아래와 같이 진행된다. encoder를 통한..
-
End-to-End Multi-Person Pose Estimation with TransformersContribution 세미나/Pose estimation 2023. 12. 10. 22:46
CVPR2022, 56회 인용 (2023-12-10 기준) Introduction 사실 바로 전에 리뷰했던 FCPose에 나온 dynamic filter 컨셉을 보면서 가장 먼저 떠오른 생각은 DETR에서 object query가 instance별 keypoint를 찾는데 사용될 수 있지 않을까 하는 점이였다. 본 논문은 이러한 내 생각과 매우 유사한 컨셉의 논문이라고 볼 수 있다. Fig. 1에서 볼 수 있듯이 기존 top-down, bottom-up 방식에 대한 설명을 간단하게 그림으로 표현하였다. (이전 글 참고) 본 논문에서는 이전처럼 전처리, 후처리 방식이 필요 없이, transformer를 활용하여 end-to-end로 학습을 진행한다. 사실 FCPose도 기존 two-stage 방식에서 벗어..