2D手勢關鍵點:《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》

《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》
原文鏈接:https://arxiv.org/pdf/2001.08869.pdf
源碼鏈接:https://github.com/HowieMa/NSRMhand

0 Abstract

手勢姿態估計(Hand pose estimation)相比身體姿態估計(body pose estimation)更具挑戰性,因手關節更加靈活,動作敏捷和自我遮擋影響( highly articulated and dexterous, and suffers severely from self-occlusion);當前部分2d關鍵點學習方法,如CPM,僅僅對關鍵點位置進行估計,並沒有對估計對象關鍵點相關結構進行約束。
本文提出一種新的非參數結構正則NSRMhand:novel Nonparametric Structure Regularization Machine)來做2D手勢估計。將手部結構信息融入到姿態估計中,並且不需要額外的訓練信息;相對CPM,在數據集OneHand 10k和CMU Panoptic Hand上分別提升精度1.17%,4.01%。

1 Introduction

本文創新

  1. 提出NSRM約束。將合成的二維手部掩膜( hand mask)融合到姿態估計中,並且是由關鍵點派生出來的,不需要額外的標註信息
  2. 提出一種新穎的手部肢體(hand limbs)概率表示方法和一種具有解剖學靈感的手部掩膜合成策略

2 Related work

2.1 Human pose estimation

  1. CPM
  2. PAF
  3. offset field【20】
  4. structural-aware loss【12】
  5. 。。。。

2.2 Hand pose estimation

近年來一些主流方法

  1. 多視角RGB方法
  2. 深度相機方法
  3. 單視角RGB方法
  4. 典型的CNN:CPM,SHG,Resnet
  5. 嵌入實例分割

3 The model

在這裏插入圖片描述
整體結構如上圖,整體結構採用級聯多任務結構,共計21個關鍵點,20個肢體;設計思路如下:

  1. 首先:骨幹網絡對手部圖形進行特徵提取,得到Feature Maps
  2. 其次:將Feature Maps送入結構模型進行肢體結構學習(Limb Structure Learning),得到Structure Representation
  3. 然後:將Feature Maps和Structure Representation進行融合
  4. 最後:進行姿態估計學習(Hand Pose Learning),輸出hand pose(keypoint confidence maps (KCM))

3.1 Limb mask representation

  1. 什麼是Limb?
    本文定義關鍵點iijj之間部分爲1個肢體LL

  2. 如何表示Limb?
    文中提出2種Limb的表示方法

  3. Limb Deterministic Mask (LDM)
    LDM定義2個關鍵點之間(即每個Limb),直線段pipj\overline{p_ip_j}固定寬度之間的像素響應爲1,其它位置響應爲0;即0/1-mask


    在這裏插入圖片描述

  4. Limb Probabilistic Mask (LPM)
    LDM定義上,在對mask表示時,如上式2,用0/1表示,有些粗糙,在實際應用中不是最佳。LPM採用高斯概率模型來生成mask( Gaussian-alike confidence value)


    在這裏插入圖片描述

  5. LDM與LPM效果圖:


    在這裏插入圖片描述

  6. 延伸閱讀
    這個表示方法與CMU(openpose)提出多人姿態估計方法PAF有相似之處;以及人臉關鍵點論文LAB也有相似之處。這2篇論文都是經典論文,本人都曾翻譯過,有興趣可以點開看看。

3.2 Limb composition

  1. 對單個的Limb表達上面已經有了,接下就是如何將它們組合成解刨學上合理的羣體(groups)?
  2. 策略1:將20個limb組合在一起,成爲一整個hand mask,關注整體,命名爲:G1

    在這裏插入圖片描述
  3. 策略2:20個limb分爲6組,5個手指和1個手掌,更關注局部細節,命名爲:G6

    在這裏插入圖片描述
  4. 數學表達

    在這裏插入圖片描述

3.3 Loss function and training

本文將NSRM融入到CPM中,如下圖,當然NSRM也可融入到其它模型中。訓練中對Structure Stage進行CE Loss進行監督學習,標籤是根據關鍵點生成的mask,而不是人工標註的mask;對Keypoint Stage進行MSE Loss監督學習,標籤是根據關鍵點生成的熱力圖map
在這裏插入圖片描述

  1. CE Loss

    在這裏插入圖片描述
  2. MSE Loss

    在這裏插入圖片描述
  3. Loss

    在這裏插入圖片描述

4 Experiments

4.1 Datasets

  1. OneHand 10K
  2. Panoptic
    在這裏插入圖片描述

4.2 Experimental settings

具體網絡結構參數,訓練參數,源碼中都有體現,讀者訓練移步研究

4.3 Quantitative results

  1. Mask對比

本文方法較CPM精度有所提高;但相對使用真實Mask訓練,還是低一點點。但對於沒有真實mask標籤的數據集來說,該方案值得借鑑,畢竟標註mask很昂貴
在這裏插入圖片描述
2. LDM與LPM對比、groups對比
在這裏插入圖片描述

4.4 Qualitative results

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章