2D手勢關鍵點：《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》

原創

2020-06-25 03:02

《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》
原文鏈接：https://arxiv.org/pdf/2001.08869.pdf
源碼鏈接：https://github.com/HowieMa/NSRMhand

文章目錄

3 The model

4 Experiments

0 Abstract

手勢姿態估計（Hand pose estimation）相比身體姿態估計（body pose estimation）更具挑戰性，因手關節更加靈活，動作敏捷和自我遮擋影響（ highly articulated and dexterous, and suffers severely from self-occlusion）；當前部分2d關鍵點學習方法，如CPM，僅僅對關鍵點位置進行估計，並沒有對估計對象關鍵點相關結構進行約束。
本文提出一種新的非參數結構正則（NSRMhand：novel Nonparametric Structure Regularization Machine）來做2D手勢估計。將手部結構信息融入到姿態估計中，並且不需要額外的訓練信息；相對CPM，在數據集OneHand 10k和CMU Panoptic Hand上分別提升精度1.17%，4.01%。

1 Introduction

本文創新

提出NSRM約束。將合成的二維手部掩膜（ hand mask）融合到姿態估計中，並且是由關鍵點派生出來的，不需要額外的標註信息
提出一種新穎的手部肢體（hand limbs）概率表示方法和一種具有解剖學靈感的手部掩膜合成策略

2 Related work

2.1 Human pose estimation

CPM
PAF
offset field【20】
structural-aware loss【12】
。。。。

2.2 Hand pose estimation

近年來一些主流方法

多視角RGB方法
深度相機方法
單視角RGB方法
典型的CNN：CPM，SHG，Resnet
嵌入實例分割

3 The model

整體結構如上圖，整體結構採用級聯多任務結構，共計21個關鍵點，20個肢體；設計思路如下：

首先：骨幹網絡對手部圖形進行特徵提取，得到Feature Maps
其次：將Feature Maps送入結構模型進行肢體結構學習（Limb Structure Learning），得到Structure Representation
然後：將Feature Maps和Structure Representation進行融合
最後：進行姿態估計學習（Hand Pose Learning），輸出hand pose（keypoint confidence maps (KCM)）

3.1 Limb mask representation

什麼是Limb？
本文定義關鍵點 $i$ 和 $j$ 之間部分爲1個肢體 $L$
如何表示Limb？
文中提出2種Limb的表示方法
Limb Deterministic Mask (LDM)
LDM定義2個關鍵點之間（即每個Limb），直線段 $\overline{p_ip_j}$ 固定寬度之間的像素響應爲1，其它位置響應爲0；即0/1-mask
Limb Probabilistic Mask (LPM)
LDM定義上，在對mask表示時，如上式2，用0/1表示，有些粗糙，在實際應用中不是最佳。LPM採用高斯概率模型來生成mask（ Gaussian-alike confidence value）
LDM與LPM效果圖：
延伸閱讀
這個表示方法與CMU（openpose）提出多人姿態估計方法PAF有相似之處；以及人臉關鍵點論文LAB也有相似之處。這2篇論文都是經典論文，本人都曾翻譯過，有興趣可以點開看看。

3.2 Limb composition

對單個的Limb表達上面已經有了，接下就是如何將它們組合成解刨學上合理的羣體（groups）？
策略1：將20個limb組合在一起，成爲一整個hand mask，關注整體，命名爲：G1
策略2：20個limb分爲6組，5個手指和1個手掌，更關注局部細節，命名爲：G6
數學表達

3.3 Loss function and training

本文將NSRM融入到CPM中，如下圖，當然NSRM也可融入到其它模型中。訓練中對Structure Stage進行CE Loss進行監督學習，標籤是根據關鍵點生成的mask，而不是人工標註的mask；對Keypoint Stage進行MSE Loss監督學習，標籤是根據關鍵點生成的熱力圖map

CE Loss
MSE Loss
Loss

4 Experiments

4.1 Datasets

OneHand 10K
Panoptic

4.2 Experimental settings

具體網絡結構參數，訓練參數，源碼中都有體現，讀者訓練移步研究

4.3 Quantitative results

Mask對比

本文方法較CPM精度有所提高；但相對使用真實Mask訓練，還是低一點點。但對於沒有真實mask標籤的數據集來說，該方案值得借鑑，畢竟標註mask很昂貴

2. LDM與LPM對比、groups對比

4.4 Qualitative results

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2D手勢關鍵點：《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》

文章目錄

0 Abstract

1 Introduction

2 Related work

2.1 Human pose estimation

2.2 Hand pose estimation

3 The model

3.1 Limb mask representation

3.2 Limb composition

3.3 Loss function and training

4 Experiments

4.1 Datasets

4.2 Experimental settings

4.3 Quantitative results

4.4 Qualitative results

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

Caffe Prototxt 特殊層系列：Concat Layer

Caffe Prototxt 特殊層系列：Softmax Layer

Pytorch模型訓練(0) - CPN源碼解析

Caffe Prototxt 特徵層系列：Scale Layer

Pytorch模型訓練(3) - 模型保存與加載

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結