2D多人關鍵點:《Simple Baselines for Human Pose Estimation and Tracking》

《Simple Baselines for Human Pose Estimation and Tracking》

  來源:微軟亞洲研究院
  論文:https://arxiv.org/abs/1804.06208
  源碼:https://github.com/Microsoft/human-pose-estimation.pytorch

  本次筆記省略了Tracking部分

Introduction

  近年來,人體姿態估計的研究已取得顯著進展;早期的MPII Benchmark,現在的COCO人體關鍵點挑戰賽發展更快,如2016年冠軍PAF(openpose,mAP=60.5)和2017年冠軍CPN(mAP=72.1);當然這期間也還有很多優秀的人體姿態方法,如Hourglass

  本文設計了非常簡單的CNN模型SimplePose,實現top-down模式的人體姿態估計,在COCO測試集上取得mAP=73.7,在2018挑戰賽上也取得了亞軍席位

  這裏說句題外話,PAF是bottom-up模式,CPN和SimplePose是top-down模式,兩者都有自己的優勢,只對比mAP對PAF是不太公平的,有興趣移步PAF

SimplePose

  本文提出的模型結構非常簡單,如下


在這裏插入圖片描述

  1)上圖中a是Hourglass網絡,b是CPN,c是本文的SimplePose,可以直觀看出結構的複雜度對比
  2)前兩種結構需要構造金字塔特徵結構,如FPN或從Resnet構建
  3)SimplePose則不需要構建金字塔特徵結構,它是直接在Resnet後面設計反捲積模塊並輸出結果
  4)具體結構:
    首先:在Resnet的基礎上,取最後殘差模塊輸出特徵層(命名C5)
    然後:後面接上3個反捲積模塊(每個模塊爲:Deconv + batchnorm + relu,反捲積參數,256通道,44卷積核,stride爲2,pad爲1)
    最後:用1
1實現輸出熱力圖

  在這些模型中,可以看出如何生成高分辨率特徵圖是姿態估計的一個關鍵,SimplePose採用Deconv擴大特徵圖的分辨率,Hourglass,CPN中採用的是upsampling+skip方式;當然我們很難就這一個實例就判定那種方式好

Experiments

  1)Backbone和Input Size對比


在這裏插入圖片描述

  2)Hourglass,CPN對比


在這裏插入圖片描述

  3)金典算法對比


在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章