2D多人關鍵點:《Deep High-Resolution Representation Learning for Human Pose Estimation》

《Deep High-Resolution Representation Learning for Human Pose Estimation》

  來源:中科技大學,微軟亞洲研究院
  論文:https://arxiv.org/pdf/1902.09212.pdf
  源碼:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

0 前沿

  本文設計了新的人體姿態估計模型,刷新了三項COCO紀錄,還中選了CVPR 2019。

  簡稱HRNet,擁有與衆不同的並聯結構,可以隨時保持高分辨率表徵,不只靠從低分辨率中恢復高分辨率表徵,其在姿勢識別的效果明顯提升:

  不但如此,HRNet在COCO數據集的關鍵點檢測、姿態估計、多人姿態估計這三項任務裏,HRNet都超越了所有前輩。

1 相關研究

  本文重點在其HRNet結構上,其他研究與前面點一些人體姿態論文(CPNSimplePose等)並無差異,可以參見本人前期博客,這裏就忽略了,重點來看看HRNet結構

2 HRNet

2.1 整體思路

  在人體姿態任務中,之前一些方法,如CPN,SimplePose等,重建高分辨率表徵都是從低分辨中恢復的,一般是通過一個從高到低分辨率網絡結構(如VGG,Resnet)中用低分辨率恢復高分辨率表徵;在CPN中有提到過,較高的空間分辨率有利於特徵點精確定位,低分辨率具有更多的語義信息
  我想作者也是基於了這一細想(個人理解),設計了高低多分辨率網絡並聯的網絡結構來提取特徵,如下圖


在這裏插入圖片描述

  1)它從一個高分辨率的子網絡開始,慢慢加入分辨率由高到低的子網絡。
  2)HRNet結構分爲縱向Depth和橫向Scale兩個維度
  3)橫向上,不同分辨率點子網絡並行(parallel)


在這裏插入圖片描述

  4)且進行多分辨率信息融合(multi-scale fusion),即 exchange unit


在這裏插入圖片描述

  5)輸出熱力圖

2.2 整體結構

   1)整體流程:4 stages
   input–>>stages1(conv1–>bn1–>conv2–>bn2–>layer1)–>>stages2(transition1–>stage2)–>>stages3(transiton2–>stage3)–>>stages4(transiton3–>stage4)–>>final_layer
   2)stages1與resnet50第一個res2相同,包括4個bottleneck
   3)stages2,3,4分別擁有1,4,3個exchange blocks;每個exchange blocks也包含4個bottleneck構成
   4)從上到下,每個stages分辨率減半,通道增倍,文中提到HRNet-W32和HRNet-W48,指的是這些stage的通道數不同,但結構相同
   5)從整體上看,與resnet50極爲相似,但多了些過渡單元transition和並行子網絡,以及exchange需要的操作

3 Experiments

  1)採用ImageNet預訓練,在COCO validation set上對比


在這裏插入圖片描述

  2)在COCO test set上對比


在這裏插入圖片描述

  3)在MPII test set上對比


在這裏插入圖片描述

  4)在PoseTrack2017 test set上的姿態跟蹤對比


在這裏插入圖片描述

  5)效果


在這裏插入圖片描述

4 延展

  除了估計姿勢,這個方法也可以做語義分割,人臉對齊,物體檢測等


在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章