CVPR 2017
Code: https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation
摘要
論文提出一個高效的檢測一張圖片中的多個人的姿態的方法,該方法使用非參數的方法(Part Affinity Fields)來學習將圖像中的每個人的各個部位連接爲一個整體。
該結構對全局上下文進行編碼,自下而上的解析方式來同時獲取高的精度和實時檢測;
簡介
推斷圖像中多個人的姿態,存在一系列的挑戰:
1.每張圖像中待檢測人體的個數不確定
2.人體之間的遮擋使得將各個關鍵點連接爲一個整體比較困難
3.檢測時間隨着圖像中人數的增加而增加,很難達到實時檢測
檢測方法分類:
Top-down :
首先進行人體檢測,然後對檢測出的人體進行姿態估計;
缺點:1.人體檢測失敗,則姿態估計就失敗
2.檢測時間與檢測人體個數成比例,很難做到實時
Bottom-up :
2.方法
首先.通過前饋網絡同時生成一系列的 身體部位的2D confidence maps S(如圖b)和身體部位的親和力的2D vector fields L(如圖c)
然後.通過推斷方式將confidence maps S和 affinities fields生成圖像中所有人的關鍵點(如圖d)
2.1同時檢測和關聯
網絡結構由兩個分支組成: 一個生成confidence maps S; 另一個生成affinities fields L; |
首先,通過卷積神經網絡(VGG-19,,初始化網絡,並進行微調)生成一系列特徵圖F;
然後,通過構建的網絡生成一系列S1和L1,
接下來每個階段的輸入,都是前一階段的輸出St-1、Lt-1和特徵圖F的組合
每階段的兩個分支都對應不同的損失函數(L2 loss):
通過損失函數加權來解決一些數據集未對所有的人進行標註的問題;
2.2 confidence maps標籤(生成關鍵點標籤)
首先生成個人confidence maps:(高斯函數)(每一個人的一個部位關鍵點對應一個波峯)
:人體k的身體部位j的位置
P: σ:控制波峯的寬度
然後,生成confidence maps標籤
2.3 affinities fields標籤(將關鍵點通過可靠的方法連接爲本該屬於的人體中)
關鍵點方向向量:
爲單位向量
關鍵點應該落在身體部位內(通過以下公式限定)
:身體部位l的像素寬度;:身體部位的長度
將k個人在位置p的非零向量求平均,作爲標籤
2.4使用PAFs進行多人解析
通過NMS獲取affinities fields的離散集合;一張圖片有多個人,所以對於每個身體部位有多個候選點;