Hourglass Network - stacked hourglass network for human pose estimation 論文解讀

paper title: stacked hourglass network for human pose estimation
paper link: https://arxiv.org/abs/1603.06937
oral or demo video:-
project: -
github:https://github.com/princeton-vl/pose-hg-train
conf & anthor: ECCV 16,Alejandro Newell et al (UMich)
arXiv submit v1: 2016.03 google citation: 969(2019.07.12)

相關鏈接:

主要內容
這篇文章主要提出了一個“stacked hourglass”的卷積網絡架構來完成單人人體姿態估計問題。文章提出了一種稱爲"hourglass"的模塊,如其名,"hourglass"模塊中的特徵處理過程是一個"bottom-up -> top-down"的形式。在"bottom-up"過程中通過Maxpooling 操作feature map的尺寸不斷減小,而接着的"top-down"過程中,通過上採樣feature map的尺寸不斷增大,恢復至輸入的尺寸;在這個過程中,融合了不同分辨率的特徵。最後通過多個"hourglass"的stack構成構成網絡的整體結構。

網絡結構
(1)"hourglass"模塊的基本結構
"hourglass"模塊的基本結構如下圖所示,圖中的每一個方塊都表示一個殘差模塊。
hourglass module
根據論文的代碼,殘差模塊的具體形式如下:
residual block in hourglass network

(2)"stacked hourglass network"的整體結構
"hourglass network"的整體結構如下圖所示,輸入的圖像首先經過卷積和pooling操作後,尺寸縮小四倍(256x256->64x64),然後接多個"hourglass"模塊。在中間的每一個"hourglass"模塊後都會輸出一箇中間結果heatmaps,參與損失函數計算,並會將這個heatmaps通過1x1的卷積“remap”回去,與原來的feature map相加到一起。具體詳細的結構可以參見下圖。
stacked hourglass network

損失函數
損失函數採用的是MSE:
Lmodule=1T1WHt=1Ti=1WH(citc^it)2 L_{module}=\frac{1}{T}\frac{1}{W*H}\sum_{t=1}^{T}\sum_{i=1}^{W*H}(c_i^t-\hat{c}_i^t)^2
其中:

  • t表示關節點的編號,T=16;
  • 上面公式表示的是一個"hourglass"模塊的損失,計算loss的時候所有模塊的損失都會計算。


論文結果
MPII數據集上[email protected]平均爲90.9;具體如下:
hourglass result

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章