論文閱讀:《RMPE: Regional Multi-Person Pose Estimation》ICCV 2017

概述

論文地址:https://arxiv.org/abs/1612.00137v3
項目主頁:RMPE: Regional Multi-person Pose Estimation

這篇論文是上海交大和騰訊優圖的論文,被 ICCV 2017接收。它對於多人姿態估計的方法採用傳統的自頂向下的方法,即先檢測人,再識別人體姿態。檢測使用的是SSD-512,識別人體姿態使用的是state-of-the-art的Stacked Hourglass方法。

Motivation

論文分析了當前姿態估計的兩種方法存在的問題——對於自頂向下的方法,檢測的誤差是很大的一個影響,即使在檢測任務下是正確的,提取的proposal也不適用於單人的姿態估計方法;同時,冗餘的檢測框也使得單人的姿態被重複估計;對於自底向上的方法,當兩個人比較靠近時,人體關鍵點分配到每個人身上會出錯,這也是該方法的challenge。作者採用自頂向上方法,致力於解決對於imperfect proposal,通過調整,使得crop的person能夠被單人姿態估計方法很好的識別,從而克服檢測帶來的定位誤差。

網絡框架

這裏寫圖片描述
整個過程分爲3步:

第一步是用SSD檢測人,獲得human proposal

第二步是將proposal輸入到兩個並行的分支裏面,上面的分支是STN+SPPE+SDTN的結構,即Spatial Transformer Networks + Single Person Pose Estimation + Spatial de- Transformer Networks,STN接收的是human proposal,SDTN產生的是pose proposal。下面並行的分支充當額外的正則化矯正器。

第三步是對pose proposal做Pose NMS(非最大值抑制),用來消除冗餘的pose proposal。

方法細節

  • Symmetric STN + SPPE + SDTN
    這裏寫圖片描述

1.將上一步得出的human proposal在長寬方向上個延遲20%,以確保可以把人完整的框起來。而且經過驗證,這樣確實可以把大部分的人整個框起來。

2.經過一個STN網絡將延伸過的圖像進行仿射變換,可以生成一個比較精確的、適合作爲SPPE輸入。

3.把SPPE的輸出經過與前邊相反的STN變換,將座標變換回原來的座標系,完成整個的識別過程。

  • Parallel SPPE

並行的SPPE作爲正則化作用,用來進一步加強STN提取優質的human proposal。這一支的label設置爲single person pose。訓練時使用2條支路輸出的總誤差來訓練網絡,在測試時將下面的 Parallel SPPE丟掉,只使用Symmetric STN進行前向傳播。

  • Parametric Pose NMS

首先選擇置信度最高的pose作爲參考,靠近它的pose通過淘汰標準來消除。對於剩下的pose,重複上述過程,直到消除冗餘姿勢,並且僅返回唯一的pose。

  • Pose-guided Proposals Generator

symmetric STN + SPPE應該用SSD產生的人體建議框充分訓練,需要適當的數據增強。這裏主要是在訓練過程中增加proposal的數量,雖然每一張圖片都只有K個人,每個人只會產生一個bbox,但是可以根據ground truth的proposals,生成和其分佈相同的多個proposals一起訓練。

實驗結果

這裏寫圖片描述

PS:具體的公式推導詳見論文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章