多人姿態估計小小的綜述

爲什麼叫小小綜述呢,因爲不從最開始綜述起。只說一說近兩年比較流行的姿態估計方法,以實用爲主。畢竟對於我來說,這塊更多是應用。單人的不好應用,就更多的說一說多人姿態估計。希望能對想入門姿態估計的朋友有一個快速的指引

入門簡介

2014年引入CNN對單人姿態估計來進行解決,但是會有很多FP出現。引入MPII數據集,是W級別,之前的FLIC和LSP數據集都是K級別。
多人關鍵點檢測數據集COCO 、CrowdPose
視頻跟蹤數據集:PoseTrack

coco上的評價標準

AP評價標準
框的IOU被替換爲OKS,大概是統計標骨架時每個關鍵點的誤差。0-1,類似於IOU的物理意義

Top-Down vs. Bottom-up

兩種方式

  1. Top-down
    Mask R-CNN , CPN, MSPN(COCO2018)
    高性能,點定位準,高召回(找到更多人)
  2. Bottom-up
    OpenPose, Associative Embeding
    網絡框架簡單,(網絡)速度快(但也不一定)

二者如何結合呢?一些實驗說明,把bottom-up融入Top-down是有好處的

難點與挑戰

  1. 令人困惑的外觀
  2. 擁擠的人羣
  3. large pose 動作變化比加大
  4. 對速度需求快
    Pose的挑戰

一直到2016年,隨着深度學習的爆發,單人姿態估計的問題也引來了黃金時間。Convolutional Pose Machine (CPM)(以及之後的OpenPose),Hourglass。
CPN MSPN幾個工作是比較好的幾個網絡

算法

CPM

是CMU的工作,OpenPose的基礎,端到端的模型,輸入圖片的batch,輸出帶有空間信息的tensor,channel的個數爲關鍵點的個數。空間大小爲原圖等比例縮放。通過在heatmap上按照channel找關鍵點的最大相應位置。
而人臉使用landmark與之差別較大。Landmark通常使用fully connected layer for regression迴歸位置。速度快,任務簡單。有sub-pixel的精度。
Heatmap精度是pixel級別,但是對空間位置信息保存較好。便於級聯。人的姿態自由度較大,landmark對自由度限制較大。
CPM
整個網路多個stage,在MPII上達到88.5

OpenPose

2016年COCO冠軍,以CPM爲組件,關鍵點+Part Affinity Field來組裝
把CPM找到的所有左手腕和左手肘拿出來建立二分圖,邊權值是基於PAF的場來計算。匹配成功則爲同一個人。

Hourglass 和 Associative Embedding

2016年,後發展爲Associate Embedding 以及後續的CornerNet
Hourglass網絡簡單,也是bottom-up
尋找part使用Hourglass

2016年之後,更有潛力的就變成了top-dewn模型了,如下:

級聯金字塔網絡和多階段姿態估計兩大類

Cascade Pyramid Network

2017年冠軍 CPN
級聯金字塔網絡

在這裏插入圖片描述
級聯網絡。第二個loss是 hard mining 的loss
檢測模型mAP很低時,map上漲對關鍵點有用,檢測map超過44.3時對關鍵點影響已經不大了

Multi-stage Pose Estimation

coco2018冠軍
每個結構channel等寬。由於層數多,容易丟失信息,因而加入黃色的連接線。Coarse-to-fine高斯核在前面層較大,層越深,高斯核越來越小,heat map定位越來越準
在這裏插入圖片描述
在這裏插入圖片描述
stage多一些,AP確實會漲一些。
在這裏插入圖片描述
開源,2018年冠軍
https://github.com/megvii-detection/MSPN

Learning to Refifine Human Pose Estimation(2018)

本文提出了訓練一個新的模型, 來對某個pose estimation model產生的pose進行修正。文章引入了一種有效的後處理技術用於人體姿勢估計中的身體關節細化任務。 由於其前饋架構,簡單且端到端的可訓練,高效的。提出了一個培訓數據增強方案糾錯,使網絡能夠識別錯誤的身體關節預測和學習方法改進它們。
在這裏插入圖片描述

Human Pose Estimation with Spatial Contextual Information(2019)

目前大多數網絡以多階段的方式進行訓練並加以優化精細。在這個出發點上,作者提出了兩個簡單但有效的模塊,即Cascade Prediction Fusion(CPF)網絡用來預測關鍵點和Pose Graph Neural Network(PGNN), 用來對上級預測的關鍵點進行修正。
在這裏插入圖片描述

Cascade Feature Aggregation for Human Pose Estimation(2019)

目前這篇文章是2019年mpll數據集[email protected]排行榜上的冠軍,相比其他論文,這篇文章創新點偏工程,達到這麼高的評分,主要有三點,一是,作者把stage2到stageNheatmap的平均值作爲最後輸出;二是作者通過實驗得出stage1把resnet101作爲backbone,後面的stage採用resnet50作爲backbone效果最佳;三是作者引入了AI Challenger的數據集來擴充訓練數據。
在這裏插入圖片描述

HRNet

本模型之前通常是將圖片放大來保留更多信息,計算量變大,效果也確實有提升。HRNet相比下采樣,提出新結構。多個層級,但是使用保留最精細的空間信息,通過fuse下采樣然後做上採樣層,獲得跟多的上下文信息和語義層面的信息。

PoseTrack

視頻中姿態跟蹤,利用上一針檢測結果,merge到新一幀,避免miss,兩幀之間使用OKS based相似度做人體關聯。獲得PoseTrack2018冠軍。

應用、總結:

應用於:跌倒檢測、人用動作控制機器人、學習太極等動作、(手機應用)等(檢測在手機上比較難,骨架部分在手機上運算還是可以的)
總結:
Context is important for Skeleton
Coarse to fine Strategy

這兩個都是Top-down的方法
Mask R-CNN中Mask指的是先將一個人Mask摳出來,再做進一步處理
級聯都是基於上一層的feature map
加入跟蹤、加入光流可以對關鍵點的抖動有一些抑制
Top-down檢測到人之後會有適當的擴大框再姿態估計
人臉關鍵點一般FCN,對速度要求高,較快,骨架一般heat map
人臉對齊時,帶眼鏡墨鏡,有遮擋,光照較差時結果可能會不好,而其他狀態已經很好了

未來:

特殊姿態的數據較少
擁擠場景行人檢測(NMS是瓶頸)
多任務學習、3D姿態估計、模型速度

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章