Single-Network Whole-Body Pose Estimation
ICCV 2019
paper : https://arxiv.org/pdf/1909.13423.pdf
github : https://github.com/CMU-Perceptual-Computing-Lab/
論文首次實現一個網絡完成整個人體的姿態估計(人臉,人體姿態,手部、足部姿態估計)。
之前完成這個任務的是OpenPose,它遵循一個多階段的方法。首先,從一個輸入圖像以自底向上的方式獲取所有的身體姿勢,然後爲每一個檢測到的人附加的臉和手的關鍵點檢測器。他是一個(multi-network的方式)。(作者認爲:1、存在如果人體部分可見,身體檢測失敗的情況。2、運行時間)
Single-Network Whole-Body Pose Estimation面臨的問題:
- 手足和人體之間的尺度差異,前者需要大的感受野學習人體之間複雜的交互(遮擋、接觸、肢體關節),後者需要更高的圖片分辨率。
- 全身標註的數據集不存在。
- 其次,單網絡模型的架構設計必須不同於最先進的關鍵點探測器,以提供高分辨率和更大的接受域
LOSS:
每一個像素p,在置信圖(c)、PAF通道(f)上的loss,如下,,代表ground-truth 的 map和field。
論文處理的主要問題:
1、Balanced dataset-based probability ratio
每個可用的數據集只包含關鍵字子集的註釋。爲了克服組合數據集的不足,採用Cao等人的single-network body-foot detector
的probability ratio思想,從人體數據集和體足數據集訓練。圖片batch從每個可獲得的數據集隨機提取,未標記的關鍵點相關的置信度圖和PAF通道的損失的二進制。從下一個有標註的數據集d挑選的概率比根據數據集的圖片的數量。這個在body-foot中或許可以獲得robust的模型,但是在全身檢測中,可能不會收斂。
2、Dataset-based augmentation
上圖揭示了三種數據集的差異。爲了解決這個問題,每個關鍵點集的擴展參數都是不同的。在數據增強時,人臉數據集的人臉最小尺度要降低。 手部的尺寸要增大。
3、overfitting
論文在一些驗證集上觀察到很大程度的過擬合,特別是在面部和實驗室記錄的數據集上。很大程度由於造成的,因此,從人臉和實驗室記錄的數據集中選擇一批數據的概率比必須進一步降低。根據經驗,對數據集之間的概率比進行了調整,使得每個數據集的驗證精度以相同的速度收斂。
4、High false positive rate
面部、手部和腳部關鍵點的假陽性率較高,在各自的置信圖和PAF通道上產生“重影”效應。從視覺上看,這意味着這些通道在不包含人員的區域輸出一個非零值。所以加入了COCO數據集(不包含任何人的)訓練。
5、Further refinement
面部和手部數據集並不一定要註釋每張圖片中出現的所有人。我們使用Mask R-CNN掩蓋圖像的區域與非標記的人。此外,人臉和手關鍵點探測器的像素定位精度較低。爲了對其進行適當的改進,我們減小了高斯分佈的半徑來生成其置信圖通道groundtruth
6、Shallow whole-body detector
7、Improved network architecture
它必須保持一個大的接受領域,以準確的身體檢測,但也提供高分辨率的地圖,爲精確的面部和手部關鍵點檢測