《Deep High-Resolution Representation Learning for Human Pose Estimation》
來源:中科技大學,微軟亞洲研究院
論文:https://arxiv.org/pdf/1902.09212.pdf
源碼:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
0 前沿
本文設計了新的人體姿態估計模型,刷新了三項COCO紀錄,還中選了CVPR 2019。
簡稱HRNet,擁有與衆不同的並聯結構,可以隨時保持高分辨率表徵,不只靠從低分辨率中恢復高分辨率表徵,其在姿勢識別的效果明顯提升:
不但如此,HRNet在COCO數據集的關鍵點檢測、姿態估計、多人姿態估計這三項任務裏,HRNet都超越了所有前輩。
1 相關研究
本文重點在其HRNet結構上,其他研究與前面點一些人體姿態論文(CPN,SimplePose等)並無差異,可以參見本人前期博客,這裏就忽略了,重點來看看HRNet結構
2 HRNet
2.1 整體思路
在人體姿態任務中,之前一些方法,如CPN,SimplePose等,重建高分辨率表徵都是從低分辨中恢復的,一般是通過一個從高到低分辨率網絡結構(如VGG,Resnet)中用低分辨率恢復高分辨率表徵;在CPN中有提到過,較高的空間分辨率有利於特徵點精確定位,低分辨率具有更多的語義信息
我想作者也是基於了這一細想(個人理解),設計了高低多分辨率網絡並聯的網絡結構來提取特徵,如下圖
1)它從一個高分辨率的子網絡開始,慢慢加入分辨率由高到低的子網絡。
2)HRNet結構分爲縱向Depth和橫向Scale兩個維度
3)橫向上,不同分辨率點子網絡並行(parallel)
4)且進行多分辨率信息融合(multi-scale fusion),即 exchange unit
5)輸出熱力圖
2.2 整體結構
1)整體流程:4 stages
input–>>stages1(conv1–>bn1–>conv2–>bn2–>layer1)–>>stages2(transition1–>stage2)–>>stages3(transiton2–>stage3)–>>stages4(transiton3–>stage4)–>>final_layer
2)stages1與resnet50第一個res2相同,包括4個bottleneck
3)stages2,3,4分別擁有1,4,3個exchange blocks;每個exchange blocks也包含4個bottleneck構成
4)從上到下,每個stages分辨率減半,通道增倍,文中提到HRNet-W32和HRNet-W48,指的是這些stage的通道數不同,但結構相同
5)從整體上看,與resnet50極爲相似,但多了些過渡單元transition和並行子網絡,以及exchange需要的操作
3 Experiments
1)採用ImageNet預訓練,在COCO validation set上對比
2)在COCO test set上對比
3)在MPII test set上對比
4)在PoseTrack2017 test set上的姿態跟蹤對比
5)效果
4 延展
除了估計姿勢,這個方法也可以做語義分割,人臉對齊,物體檢測等