paper title: stacked hourglass network for human pose estimation
paper link: https://arxiv.org/abs/1603.06937
oral or demo video:-
project: -
github:https://github.com/princeton-vl/pose-hg-train
conf & anthor: ECCV 16,Alejandro Newell et al (UMich)
arXiv submit v1: 2016.03 google citation: 969(2019.07.12)
相關鏈接:
- DeepPose - human pose estimation via deep nerual networks
- Efficient Object Localization Using Convolutional Networks
- Convolutional Pose Machines
- Human Pose Estimation with Iterative Error Feedback
- Hourglass Network - stacked hourglass network for human pose estimation
- OpenPose - Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
主要內容:
這篇文章主要提出了一個“stacked hourglass”的卷積網絡架構來完成單人人體姿態估計問題。文章提出了一種稱爲"hourglass"的模塊,如其名,"hourglass"模塊中的特徵處理過程是一個"bottom-up -> top-down"的形式。在"bottom-up"過程中通過Maxpooling 操作feature map的尺寸不斷減小,而接着的"top-down"過程中,通過上採樣feature map的尺寸不斷增大,恢復至輸入的尺寸;在這個過程中,融合了不同分辨率的特徵。最後通過多個"hourglass"的stack構成構成網絡的整體結構。
網絡結構:
(1)"hourglass"模塊的基本結構
"hourglass"模塊的基本結構如下圖所示,圖中的每一個方塊都表示一個殘差模塊。
根據論文的代碼,殘差模塊的具體形式如下:
(2)"stacked hourglass network"的整體結構
"hourglass network"的整體結構如下圖所示,輸入的圖像首先經過卷積和pooling操作後,尺寸縮小四倍(256x256->64x64),然後接多個"hourglass"模塊。在中間的每一個"hourglass"模塊後都會輸出一箇中間結果heatmaps,參與損失函數計算,並會將這個heatmaps通過1x1的卷積“remap”回去,與原來的feature map相加到一起。具體詳細的結構可以參見下圖。
損失函數:
損失函數採用的是MSE:
其中:
- t表示關節點的編號,T=16;
- 上面公式表示的是一個"hourglass"模塊的損失,計算loss的時候所有模塊的損失都會計算。
論文結果:
MPII數據集上[email protected]平均爲90.9;具體如下: