《Simple Baselines for Human Pose Estimation and Tracking》
來源:微軟亞洲研究院
論文:https://arxiv.org/abs/1804.06208
源碼:https://github.com/Microsoft/human-pose-estimation.pytorch
本次筆記省略了Tracking部分
Introduction
近年來,人體姿態估計的研究已取得顯著進展;早期的MPII Benchmark,現在的COCO人體關鍵點挑戰賽發展更快,如2016年冠軍PAF(openpose,mAP=60.5)和2017年冠軍CPN(mAP=72.1);當然這期間也還有很多優秀的人體姿態方法,如Hourglass等
本文設計了非常簡單的CNN模型SimplePose,實現top-down模式的人體姿態估計,在COCO測試集上取得mAP=73.7,在2018挑戰賽上也取得了亞軍席位
這裏說句題外話,PAF是bottom-up模式,CPN和SimplePose是top-down模式,兩者都有自己的優勢,只對比mAP對PAF是不太公平的,有興趣移步PAF
SimplePose
本文提出的模型結構非常簡單,如下
1)上圖中a是Hourglass網絡,b是CPN,c是本文的SimplePose,可以直觀看出結構的複雜度對比
2)前兩種結構需要構造金字塔特徵結構,如FPN或從Resnet構建
3)SimplePose則不需要構建金字塔特徵結構,它是直接在Resnet後面設計反捲積模塊並輸出結果
4)具體結構:
首先:在Resnet的基礎上,取最後殘差模塊輸出特徵層(命名C5)
然後:後面接上3個反捲積模塊(每個模塊爲:Deconv + batchnorm + relu,反捲積參數,256通道,44卷積核,stride爲2,pad爲1)
最後:用11實現輸出熱力圖
在這些模型中,可以看出如何生成高分辨率特徵圖是姿態估計的一個關鍵,SimplePose採用Deconv擴大特徵圖的分辨率,Hourglass,CPN中採用的是upsampling+skip方式;當然我們很難就這一個實例就判定那種方式好
Experiments
1)Backbone和Input Size對比
2)Hourglass,CPN對比
3)金典算法對比