【姿態估計文章閱讀】Single-Stage Multi-Person Pose Machines【依圖科技】

原創

2020-06-23 11:54

一、今年ICCV2019剛出爐的文章，顏水成教授團隊的，非官方代碼：https://github.com/murdockhou/Single-Stage-Multi-person-Pose-Machines

二、這篇文章核心思想

1、點評了下目前多人姿態估計中的現狀：大多數人都在多two-stage，很多模型都是但人姿態估計結合上人體檢測，這也是這兩年的主要內容，效果雖然好，但是缺點也是很明顯“效率低”；one-stage也有不少工作，但是類似於pif，paf，embedding之類，也是在逐年提升，embedding的方法出來之後，不少團隊把這個用於目標檢測提升了one-stage的目標檢測結果。

2、提出了一個算是全新的結構：single-stage的多人姿態估計模型，不同於以往的one-stage，本文的模型沒有複雜的後續處理（比如openpose需要後續處理利用paf生成圖，做2部圖的劃分，再組裝成每個人），本文的直接會預測人。（這裏也推薦下另一篇文章ECCV2018的，pose proposal Network）去年自己也想這麼做，可惜～～～

3、對提出的結構進行優化，減輕網絡預測的難度，提升“打跨度”關鍵點之間的預測能力。

4、這個方法可以直接用到3D多人姿態估計中，只需要增加一個座標位置就ok。

三、算法的總體結構

這個圖可能不太清楚，但是結構還是那麼回事，正常的迴歸。Root Conf.Map 還是我們熟悉的Heatmap，只不過這個用來回歸一個叫root joint的關鍵點，可以理解成“人物中心”用來代表每個人物instance！而且是多人的，因此肯定是使用的NMS了。Joint DisP.Map 是偏移量，可以當成offset，因爲我們知道了root joint的位置，然後在root joint這個位置上去取對應關節的offset，加到root joint的x,y上面就能得到比如肩膀的x,y了。一個一個加就能得到每個instance的全部pose了。

四、Structured pose representation （SPR）和 Hierarchical SPR

在“三”裏面，我們說的其他全部關鍵點的推理建立在 root joint+對應offset的基礎之上，算是SPR，這種雖然可以解決問題，但是不能很好的解決，因爲有的身體關鍵點偏離root joint較遠，這對網絡來說自然是有難度的直接去迴歸。

對於這個問題，作者提出了Hierarchical SPR，看下圖可以一目瞭然：

文章中分了四個等級：Here, the root joint is placed in the first hierarchy; torso joints including neck, shoulders and hips are in the second one; head, elbows and knees are put in the third; wrists and ankles are put in the fourth.這樣一來的好處就是減輕了網絡預測的壓力，關鍵點依賴於他相鄰的關節，一層套一層，因此這裏的offset也是一層套一層，因此可以簡化成如下的公式：