《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》
原文鏈接:https://arxiv.org/pdf/2001.08869.pdf
源碼鏈接:https://github.com/HowieMa/NSRMhand
文章目錄
0 Abstract
手勢姿態估計(Hand pose estimation)相比身體姿態估計(body pose estimation)更具挑戰性,因手關節更加靈活,動作敏捷和自我遮擋影響( highly articulated and dexterous, and suffers severely from self-occlusion);當前部分2d關鍵點學習方法,如CPM,僅僅對關鍵點位置進行估計,並沒有對估計對象關鍵點相關結構進行約束。
本文提出一種新的非參數結構正則(NSRMhand:novel Nonparametric Structure Regularization Machine)來做2D手勢估計。將手部結構信息融入到姿態估計中,並且不需要額外的訓練信息;相對CPM,在數據集OneHand 10k和CMU Panoptic Hand上分別提升精度1.17%,4.01%。
1 Introduction
本文創新
- 提出NSRM約束。將合成的二維手部掩膜( hand mask)融合到姿態估計中,並且是由關鍵點派生出來的,不需要額外的標註信息
- 提出一種新穎的手部肢體(hand limbs)概率表示方法和一種具有解剖學靈感的手部掩膜合成策略
2 Related work
2.1 Human pose estimation
- CPM
- PAF
- offset field【20】
- structural-aware loss【12】
- 。。。。
2.2 Hand pose estimation
近年來一些主流方法
- 多視角RGB方法
- 深度相機方法
- 單視角RGB方法
- 典型的CNN:CPM,SHG,Resnet
- 嵌入實例分割
3 The model
整體結構如上圖,整體結構採用級聯多任務結構,共計21個關鍵點,20個肢體;設計思路如下:
- 首先:骨幹網絡對手部圖形進行特徵提取,得到Feature Maps
- 其次:將Feature Maps送入結構模型進行肢體結構學習(Limb Structure Learning),得到Structure Representation
- 然後:將Feature Maps和Structure Representation進行融合
- 最後:進行姿態估計學習(Hand Pose Learning),輸出hand pose(keypoint confidence maps (KCM))
3.1 Limb mask representation
-
什麼是Limb?
本文定義關鍵點和之間部分爲1個肢體 -
如何表示Limb?
文中提出2種Limb的表示方法 -
Limb Deterministic Mask (LDM)
LDM定義2個關鍵點之間(即每個Limb),直線段固定寬度之間的像素響應爲1,其它位置響應爲0;即0/1-mask
-
Limb Probabilistic Mask (LPM)
LDM定義上,在對mask表示時,如上式2,用0/1表示,有些粗糙,在實際應用中不是最佳。LPM採用高斯概率模型來生成mask( Gaussian-alike confidence value)
-
LDM與LPM效果圖:
-
延伸閱讀
這個表示方法與CMU(openpose)提出多人姿態估計方法PAF有相似之處;以及人臉關鍵點論文LAB也有相似之處。這2篇論文都是經典論文,本人都曾翻譯過,有興趣可以點開看看。
3.2 Limb composition
- 對單個的Limb表達上面已經有了,接下就是如何將它們組合成解刨學上合理的羣體(groups)?
- 策略1:將20個limb組合在一起,成爲一整個hand mask,關注整體,命名爲:G1
- 策略2:20個limb分爲6組,5個手指和1個手掌,更關注局部細節,命名爲:G6
- 數學表達
3.3 Loss function and training
本文將NSRM融入到CPM中,如下圖,當然NSRM也可融入到其它模型中。訓練中對Structure Stage進行CE Loss進行監督學習,標籤是根據關鍵點生成的mask,而不是人工標註的mask;對Keypoint Stage進行MSE Loss監督學習,標籤是根據關鍵點生成的熱力圖map
- CE Loss
- MSE Loss
- Loss
4 Experiments
4.1 Datasets
- OneHand 10K
- Panoptic
4.2 Experimental settings
具體網絡結構參數,訓練參數,源碼中都有體現,讀者訓練移步研究
4.3 Quantitative results
- Mask對比
本文方法較CPM精度有所提高;但相對使用真實Mask訓練,還是低一點點。但對於沒有真實mask標籤的數據集來說,該方案值得借鑑,畢竟標註mask很昂貴
2. LDM與LPM對比、groups對比