【single stage 多人姿態估計】Associative Embedding: End-to-End Learning for Joint Detection and Grouping

出處:NIPS2017

核心內容:Single Stage 多人姿態估計

文章摘要:這篇文章,提出了一個與之前所有方法都不一樣的新的姿態估計方法,也可以用於instance 分割,目標檢測等。這個方法是自下而上的,在此之前比較有名的自下而上的姿態估計領域的文章,是“OpenPose”-CMU。

核心思想:先檢測全圖所有的關鍵點,如果是COCO數據集那麼Heatmaps就有17+1個,如果是MPII那麼又16+1個Heatmaps。本文在這些預測heatmaps額外還有個map 我們成爲tag map,相當於是原圖的每一個pixel對應到最後輸出的 result maps,首先根據pixel的位置查詢heatmaps輸出哪一類,然後再根據tag map上的標誌,得到屬於哪一個人。

文章主要方法

1、模型結構

         模型結構非常簡單,幾次基礎卷積和降採樣後,連接着4個hourgalss模型。藍色和綠色的圈表示 深度監督 loss。

2、網絡預測出heatmaps同時給出tag maps,作者嘗試過tag的維度,從結果上來說,tag只需要1維就夠了,更高的維度並沒有帶來更有效的提升。

Stacked Hourglass Architecture

     作者沒有直接使用原始的hourglass,主要對hourglass的內部結構中不同層的channel數量做了改變

                   

3、Multiperson Pose Estimation

       首先,heatmap一如既往採用2D高斯,多人,就變成多高斯,這部分loss一如既往採用歐式loss,MSELoss。tag這部分將每個檢測到的合格的joint,也就是heatmap上對應pixel的值最高的那個類別joint,進行分組成group,每個group代表一個人。這裏的tag沒有具體的標籤值,而且再計算group loss的時候,tag採用的是groundtruth所對應的pixel位置的tag。

      group loss最基本的思想就是,同一個group 內的所有tag 要一樣,不同group 之間的tag要不同。但是,從現實上來說,一樣是不會的,只能是相近,相近的概念通過歐式距離來實現。tag map也相當於是一個embedding。;

                                    

      上面這個公式用於生成,每個人(group)的tag標籤,n表示第n個人,k表示第k個關節,x表示真是關節所在pixel location,hk表示“預測到的tag值”。通過這種方式,我們得到了每個人的tag標籤,無所謂具體的值是多少,只要統一每一個關鍵點的tag值就行了。

                        

      因此,也就得到了這個loss,一個典型的基於歐式距離的loss。

    上圖中,右側可以清晰的看到,每一個人的不同關鍵點的tag值被規範到了一定範圍內。從頭和軀幹,一個一個的連接,每個人的關鍵點,利用非極大值抑制。最終得到每一個人。

    這種方式,也可以很好的引用到instance 的分割中。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章