CS/Computer Vision

Hand4Whole(CVPR 2022) 핵심 정리

공영재 2024. 11. 8. 14:45

Preview

https://arxiv.org/abs/2011.11534

 

Accurate 3D Hand Pose Estimation for Whole-Body 3D Human Mesh Estimation

Whole-body 3D human mesh estimation aims to reconstruct the 3D human body, hands, and face simultaneously. Although several methods have been proposed, accurate prediction of 3D hands, which consist of 3D wrist and fingers, still remains challenging due to

arxiv.org

 

기존 whole-body pose estimation 방식은 hand와 body를 따로 estimation한다. hand와 face가 body에 비해 매우 작아 네트워크의 뒷단에 가면 feature의 정보손실이 심하기에 각각 따로 진행하는 것이 성능이 좋았다. 하지만 손이 사물 등에 가리게 되면, 손의 pose가 해부학적으로 불가능한 범위로 구현되는 등의 문제가 있다. 이 논문에서는 hand의 joint 수를 줄이고, hand와 body를 유기적으로 연결함으로써 3d whole body pose estimation에서 hand 추정을 개선한다.

 

Method

 

기본적으로 pose2pose 아키텍처를 이용한다.

 

이 논문에서는 3d wrist의 rotation을 추정할 때 hand pose의 21개 joint 중 손가락과 손바닥을 연결하는 4개의 MCP joint가 중요하다는 것을 발견하고, 이를 활용한다.

기본적으로 고해상도 이미지를 입력으로 받아, bodynet을 통해 hand box / face box를 각각 추정하고 crop한 뒤 이를 Resnet 입력으로 넣는다. 이후 handnet의 출력인 두 손에 대한 4개의 MCP joint, 총 8개의 feature를 추출해 bodynet의 joint feature와 합친다. 손가락과 몸의 움직임은 독립적인 한편, 손목과 몸의 움직임은 그렇지 않기에 wrist rotation은 body와 MCP joint를 함께 사용하고, finger rotation은 hand만 사용한다. 각 네트워크의 결과는 final whole-body 3d human mesh를 얻기 위해 SMPL-X layer로 이동한다.

 

Q.

- 인풋이 고화질의 이미지여야 손과 머리같은 작은 부분을 crop했을 때 네트워크 뒷단에서의 정보 손실이 줄고 estimation이 잘 이루어질 수 있다고 이해했다. 그렇다면 고화질로 변환하는 여러 연구가 진행되고 있는 것으로 아는데, 이를 모델에 추가해 활용한다면 낮은 화질의 이미지에 대해서도 general하게 활용할 수 있지 않을지?