-
MM-Fi: Multi-Modal Non-Intrusive 4D Human Dataset for Versatile Wireless SensingContribution 세미나 2024. 4. 15. 15:06

Dataset 구축이 핵심, 간단한 실험 추가, 검출 모델에 대한 contribution은 없음
Contribution
- multiple sensing modalities
- synchronized mobile sensor platform
- profuse action sets
- versatile sensing with unexplored tasks
- extensive benchmarks

카메라, lidar, radar, wifi 사용, ROS를 통해 싱크 맞춤

센서별 특징을 표현
카메라: 1920x1080 RGB, 1280x720 스테레오 IR
Lidar: Ouster 32채널 lidar
Radar: IWR6843 mmWave, 워낙 sparse 하기 때문에 0.5초 데이터 누적, 데이터 개수가 128개 정도 되도록
Wifi: 1 transmitter, 3 receiver, 114 subcarriers, sampling ratio 1000Hz, 3x114xT 데이터로 표현 (T=32ms)
데이터셋 환경
subjects: 40명의 인원 사용 (여자 12명, 남자 28명, 평균 나이 25.3, 몸무게 66.1, 키 172.3, BMI 22.2)
action: 25개의 action 사용, 13개는 일상 행동, 12개는 재활 운동, 각각 30초 분량

정작 쓰러짐은 없는듯…?

2D and 3D human pose annotation
초기에 HRNet-w48 사용하여 스테레오 카메라에서 2D keypoints 추출
camera calibration을 통해 global 좌표계로 변환(3d key-points)
inaccurate triangulation으로 인한 부정확성 때문에 한번 보정하는 작업 진행
(2d key-point는 정확하다는 가정)
1st term: 3d key-points를 c개의 카메라에 대해서 각각 projection 시킨 이후 2d key-point와 error 계산
2nd term: frame 사이의 차이를 줄이도록(smoothness loss)
3rd term: key point 사이의 특징 고려 (e.g. 다리 길이는 일정하다)
이를 통해 3d key-point가 보정된다.
L_A는 특정 action에 대한 regularizer (논문에서 appendix에 설명되어 있다고 하는데 appendix가 없음…)
action에 따른 key point들 사이의 관계를 정의위와 같이 구한 3D keypoint를 2d key point와 매칭한 경우 약 95.6% 정확도를 보임
Benchmark setup
protocol: P1(13개 일상 행동), P2(12개 재활 운동), P3(전체)
data splits: S1(random), S2(Cross-environment split), S3(Cross-subject split)
evaluation metrics
Mean Per Joint Position Error(MPJPE): 말그대로 gt와의 거리 차이Procrustes Analysis MPJPE(PA-MPJPE): 정확한 사람위치는 고려하지 않고, keypoint 사이의 관계를 정확하게 예측했는지를 판단
Baseline methods:
RGB: 3d human pose estimation in video with temporal convolutions and semi-supervised training. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2019) → pre-trained model 사용
Lidar and mmWave: Point transformer. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 16259–16268 (2021) → scratch 학습
WiFi: Metafi++: Wifi-enabled transformer-based human pose estimation for metaverse avatar simulation. IEEE Internet of Things Journal (2023) → scratch 학습

S1의 경우
MPJPE의 경우 lidar가 제일 성능이 좋음
PA-MPJPE의 경우 RADAR가 제일 성능이 좋음
Wifi는 resolution 한계로 성능이 제일 안좋음
RGB는 pretrained model과의 domain gap으로 인해 성능이 안좋음
S2의 경우
MPJPE의 경우 RADAR가 제일 성능이 좋음 → 환경 영향을 덜 받음
lidar의 경우 성능이 급격하게 하락 → 환경 영향을 많이 받음
wifi도 비슷하게 성능 하락 → 환경 영향을 받음
S3의 경우
Lidar와 radar가 좋은 generalization 능력을 보여줌
Wifi는 성능하락이 제일 크게 발생

'Contribution 세미나' 카테고리의 다른 글