【single stage 多人姿態估計】Associative Embedding: End-to-End Learning for Joint Detection and Grouping

原創

Hi_AI

2018-12-23 15:05

出處：NIPS2017

核心內容：Single Stage 多人姿態估計

文章摘要：這篇文章，提出了一個與之前所有方法都不一樣的新的姿態估計方法，也可以用於instance 分割，目標檢測等。這個方法是自下而上的，在此之前比較有名的自下而上的姿態估計領域的文章，是“OpenPose”-CMU。

核心思想：先檢測全圖所有的關鍵點，如果是COCO數據集那麼Heatmaps就有17+1個，如果是MPII那麼又16+1個Heatmaps。本文在這些預測heatmaps額外還有個map 我們成爲tag map，相當於是原圖的每一個pixel對應到最後輸出的 result maps，首先根據pixel的位置查詢heatmaps輸出哪一類，然後再根據tag map上的標誌，得到屬於哪一個人。

文章主要方法：

1、模型結構：

模型結構非常簡單，幾次基礎卷積和降採樣後，連接着4個hourgalss模型。藍色和綠色的圈表示深度監督 loss。

2、網絡預測出heatmaps同時給出tag maps，作者嘗試過tag的維度，從結果上來說，tag只需要1維就夠了，更高的維度並沒有帶來更有效的提升。

Stacked Hourglass Architecture：

作者沒有直接使用原始的hourglass，主要對hourglass的內部結構中不同層的channel數量做了改變

3、Multiperson Pose Estimation：

首先，heatmap一如既往採用2D高斯，多人，就變成多高斯，這部分loss一如既往採用歐式loss，MSELoss。tag這部分將每個檢測到的合格的joint，也就是heatmap上對應pixel的值最高的那個類別joint，進行分組成group，每個group代表一個人。這裏的tag沒有具體的標籤值，而且再計算group loss的時候，tag採用的是groundtruth所對應的pixel位置的tag。

group loss最基本的思想就是，同一個group 內的所有tag 要一樣，不同group 之間的tag要不同。但是，從現實上來說，一樣是不會的，只能是相近，相近的概念通過歐式距離來實現。tag map也相當於是一個embedding。；

上面這個公式用於生成，每個人（group）的tag標籤，n表示第n個人，k表示第k個關節，x表示真是關節所在pixel location，hk表示“預測到的tag值”。通過這種方式，我們得到了每個人的tag標籤，無所謂具體的值是多少，只要統一每一個關鍵點的tag值就行了。

因此，也就得到了這個loss，一個典型的基於歐式距離的loss。

上圖中，右側可以清晰的看到，每一個人的不同關鍵點的tag值被規範到了一定範圍內。從頭和軀幹，一個一個的連接，每個人的關鍵點，利用非極大值抑制。最終得到每一個人。

這種方式，也可以很好的引用到instance 的分割中。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【single stage 多人姿態估計】Associative Embedding: End-to-End Learning for Joint Detection and Grouping

【文章閱讀】The Devil is in the Decoder【計算機視覺中的上採樣方式-6種】

【姿態估計文章閱讀】Structured Feature Learning for Pose Estimation

【姿態估計文章閱讀】Human Pose Estimation with Iterative Error Feedback【這篇文章看的雖然有點迷糊，但是最後有一點很重要，自適應scale】

【姿態估計文章閱讀】PifPaf: Composite Fields for Human Pose Estimation

【文章解讀】FreeAnchor: Learning to Match Anchors for Visual Object Detection

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結