-
[논문 세미나] Group Pose: A Simple Baseline for End-to-End Multi-person Pose EstimationContribution 세미나/Pose estimation 2023. 12. 15. 20:55

Introduction
이 논문을 세미나하기 위해서 그동안 FCPose, PETR, ED-Pose에 대한 세미나를 차례대로 진행했었다.
이전 논문들을 열심히 세미나한 덕분에 이번 논문 세미나는 생각보다 쉽게 작성할 수 있었다.
그럼 본격적으로 논문 세미나를 시작하겠다.
기존 방식(PETR, ED-Pose)들은 2가지 형태의 decoder를 사용함.
본 논문에서는 이를 하나의 간단한 decoder로 통합시킴, 다만 기존 방식과의 차별점은 self attention 방식에 변화를 줌.
즉 instance에 해당하는 query와 keypoint에 해당하는 query와의 관계에 초점을 맞춤.Contribution
1. instance & keypoint query를 한번에 처리하는 하나의 decoder를 사용
2. two subsequent group self-attention을 사용, 기존에 mask를 이용하여 attention을 조정하는 방식보다 효율적임
Proposed method

그림과 같이 instance query(1개)와 keypoint query(K개)를 N개의 후보군에 대해서 사용 (N X (K + 1))
두가지 유형의 self-attention을 사용
우선 본 논문에서는 같은 후보군 안에서 instance와 keypoint를 전부 attention에 활용 (group 1)
추가적으로 같은 type의 query끼리는 다른 후보군이더라도 attention에 활용 (group 2)
예를 들면 eye keypoint는 다른 사람에 대한 eye keypoint더라도 전부 고려하는게 성능 향상이 있다고 생각함
(이전에는 같은 사람에 대해서만 key point를 비교했다면, 본 논문에서는 같은 유형의 keypoint는 다른 사람이더라도 의미가 있다 생각)
보통 이러한 방식의 attention은 그림 (b)와 같이 mask를 통해서 원하는 attention만 고려할 수 있다.
하지만 본 논문에서는 아예 group을 나눠서 따로 attention을 진행했다.
(mask를 사용한 방식과 다른점은, normalization할 때 group 별로 진행하여 해당 요소가 해당 group 미치는 영향을 좀 더 명확하게 알 수 있다)Experiment

GroupPose의 경우 keypoint regression loss만 사용해도 좋은 성능을 보여준다.

(a) query 종류에 따른 성능 비교
(b) classification에 어떤 query를 사용하는지에 따른 성능 비교, decoupled된 경우 가장 성능이 좋음
(c) Instance 개수에 따른 성능 비교
(d) Self attention 방식에 따른 성능 비교, group self-attention이 성능 개선에 효과가 있음
(e) Group self-attention 방식에 따른 성능 비교, within-instance와 across-instance 전부 고려하는게 가장 좋음
group self attention을 사용하면 convergence 속도도 빠름

Same-type across-instance가 없는 경우 같은 사람에게 여러 pose가 검출 될 수 있음

GroupPose에 detection decoder를 추가하면 성능이 좋아짐

당연한 말이지만 input resolution을 줄이면 속도가 빨라짐
'Contribution 세미나 > Pose estimation' 카테고리의 다른 글