Contribution 세미나

MM-Fi: Multi-Modal Non-Intrusive 4D Human Dataset for Versatile Wireless Sensing

PaperGPT 2024. 4. 15. 15:06

 

Dataset 구축이 핵심, 간단한 실험 추가, 검출 모델에 대한 contribution은 없음

Contribution

  1. multiple sensing modalities
  2. synchronized mobile sensor platform
  3. profuse action sets
  4. versatile sensing with unexplored tasks
  5. extensive benchmarks

 

카메라, lidar, radar, wifi 사용, ROS를 통해 싱크 맞춤

 

 

센서별 특징을 표현

카메라: 1920x1080 RGB, 1280x720 스테레오 IR

Lidar: Ouster 32채널 lidar

Radar: IWR6843 mmWave, 워낙 sparse 하기 때문에 0.5초 데이터 누적, 데이터 개수가 128개 정도 되도록

Wifi: 1 transmitter, 3 receiver, 114 subcarriers, sampling ratio 1000Hz, 3x114xT 데이터로 표현 (T=32ms)

 

데이터셋 환경

subjects: 40명의 인원 사용 (여자 12명, 남자 28명, 평균 나이 25.3, 몸무게 66.1, 키 172.3, BMI 22.2)

action: 25개의 action 사용, 13개는 일상 행동, 12개는 재활 운동, 각각 30초 분량

 

정작 쓰러짐은 없는듯…?

 

2D and 3D human pose annotation

초기에 HRNet-w48 사용하여 스테레오 카메라에서 2D keypoints 추출

camera calibration을 통해 global 좌표계로 변환(3d key-points)

inaccurate triangulation으로 인한 부정확성 때문에 한번 보정하는 작업 진행
(2d key-point는 정확하다는 가정)

 

 

1st term: 3d key-points를 c개의 카메라에 대해서 각각 projection 시킨 이후 2d key-point와 error 계산

2nd term: frame 사이의 차이를 줄이도록(smoothness loss)

3rd term: key point 사이의 특징 고려 (e.g. 다리 길이는 일정하다)

이를 통해 3d key-point가 보정된다.

 

L_A는 특정 action에 대한 regularizer (논문에서 appendix에 설명되어 있다고 하는데 appendix가 없음…)
action에 따른 key point들 사이의 관계를 정의

위와 같이 구한 3D keypoint를 2d key point와 매칭한 경우 약 95.6% 정확도를 보임

 

Benchmark setup

protocol: P1(13개 일상 행동), P2(12개 재활 운동), P3(전체)

data splits: S1(random), S2(Cross-environment split), S3(Cross-subject split)

 

evaluation metrics
Mean Per Joint Position Error(MPJPE): 말그대로 gt와의 거리 차이

Procrustes Analysis MPJPE(PA-MPJPE): 정확한 사람위치는 고려하지 않고, keypoint 사이의 관계를 정확하게 예측했는지를 판단

 

Baseline methods:

RGB: 3d human pose estimation in video with temporal convolutions and semi-supervised training. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2019) → pre-trained model 사용

Lidar and mmWave: Point transformer. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 16259–16268 (2021) → scratch 학습

WiFi: Metafi++: Wifi-enabled transformer-based human pose estimation for metaverse avatar simulation. IEEE Internet of Things Journal (2023) → scratch 학습

 

S1의 경우

MPJPE의 경우 lidar가 제일 성능이 좋음

PA-MPJPE의 경우 RADAR가 제일 성능이 좋음

Wifi는 resolution 한계로 성능이 제일 안좋음

RGB는 pretrained model과의 domain gap으로 인해 성능이 안좋음

 

S2의 경우

MPJPE의 경우 RADAR가 제일 성능이 좋음 → 환경 영향을 덜 받음

lidar의 경우 성능이 급격하게 하락 → 환경 영향을 많이 받음

wifi도 비슷하게 성능 하락 → 환경 영향을 받음

 

S3의 경우

Lidar와 radar가 좋은 generalization 능력을 보여줌

Wifi는 성능하락이 제일 크게 발생