【姿態估計文章閱讀】Single-Stage Multi-Person Pose Machines【依圖科技】

一、今年ICCV2019剛出爐的文章,顏水成教授團隊的,非官方代碼:https://github.com/murdockhou/Single-Stage-Multi-person-Pose-Machines

二、這篇文章核心思想

      1、點評了下目前多人姿態估計中的現狀:大多數人都在多two-stage,很多模型都是但人姿態估計結合上人體檢測,這也是這兩年的主要內容,效果雖然好,但是缺點也是很明顯“效率低”;one-stage也有不少工作,但是類似於pif,paf,embedding之類,也是在逐年提升,embedding的方法出來之後,不少團隊把這個用於目標檢測提升了one-stage的目標檢測結果。

      2、提出了一個算是全新的結構:single-stage的多人姿態估計模型,不同於以往的one-stage,本文的模型沒有複雜的後續處理(比如openpose需要後續處理利用paf生成圖,做2部圖的劃分,再組裝成每個人),本文的直接會預測人。(這裏也推薦下另一篇文章ECCV2018的,pose proposal Network)去年自己也想這麼做,可惜~~~

      3、對提出的結構進行優化,減輕網絡預測的難度,提升“打跨度”關鍵點之間的預測能力。

      4、這個方法可以直接用到3D多人姿態估計中,只需要增加一個座標位置就ok。

三、算法的總體結構

                    

    這個圖可能不太清楚,但是結構還是那麼回事,正常的迴歸。Root Conf.Map 還是我們熟悉的Heatmap,只不過這個用來回歸一個叫root joint的關鍵點,可以理解成“人物中心”用來代表每個人物instance!而且是多人的,因此肯定是使用的NMS了。Joint DisP.Map 是偏移量,可以當成offset,因爲我們知道了root joint的位置,然後在root joint這個位置上去取對應關節的offset,加到root joint的x,y上面就能得到比如肩膀的x,y了。一個一個加就能得到每個instance的全部pose了。

四、Structured pose representation (SPR)和 Hierarchical SPR

    在“三”裏面,我們說的其他全部關鍵點的推理建立在 root joint+對應offset的基礎之上,算是SPR,這種雖然可以解決問題,但是不能很好的解決,因爲有的身體關鍵點偏離root joint較遠,這對網絡來說自然是有難度的直接去迴歸。

    對於這個問題,作者提出了Hierarchical SPR,看下圖可以一目瞭然:

      文章中分了四個等級:Here, the root joint is placed in the first hierarchy; torso joints including neck, shoulders and hips are in the second one; head, elbows and knees are put in the third; wrists and ankles are put in the fourth.這樣一來的好處就是減輕了網絡預測的壓力,關鍵點依賴於他相鄰的關節,一層套一層,因此這裏的offset也是一層套一層,因此可以簡化成如下的公式:

     

      從這裏可以看出,這個模型,除了root joint是直接預測外,其他的都是預測的偏移。

   這裏網絡模型採用的是hourglass * 8.

五、實驗設置

  label的生成,root joint依然是採用的2d 高斯 heatmap,sigma=7.其他的關鍵點都是offset,直接預測的值了:

    這個tao其實就是一個label的範圍限制,對應熱度圖中熱度稍微高的地方有label,其他地方就沒有了。

   這個是用來解決同一個位置可能有多個關鍵點的的話,利用這個公式進行平均。

   第一部分用的MESLoss,第二部分就是smooth L1了,採用了每個stage都有中繼監督,用於防治梯度消失。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章