(11) Multi-person Pose Estimation : RMPE

RMPE: Regional Multi-Person Pose Estimation(精讀)


ICCV 2017

reading time :2019/09/16 

paper address : https://arxiv.org/pdf/1612.00137.pdf


論文中,作者提出了新的regional multi-person pose estimation(RMPE) 用來在出現不正確人臉框的時候,促進姿態估計。框架包括三個部分:Symmetric Spatial Transformer Network(SSTN)Parametric Pose Non-Maximum-Suppression(NMS)。Pose-Guided Proposals Generator(PGPG)

 

上圖,是作者發現的多人姿態估計中的兩個主要問題。第一是bounding box定位誤差問題。 紅色是ground truth,黃色是檢測得到的IOU>0.5的檢測框。發現對應黃色框的heatmap中沒有檢測到相應的人體部位。右側的黃色檢測框IOU>0.5,可以被認爲是“正確的”但是沒有檢測到人體關鍵點。第二個問題是,自上而下的多人姿態估計,產生冗餘的bounding boxs,然後SPPE對每一個人體框進行姿態估計,導致冗餘。

regional multi-person pose estimation(RMPE)

    SSTN(Symmetric spatial transformer network)

        有人體檢測得到的檢測框並不適合SPPE。從一個不精確的bounding box得到一個高質量的人體區域。 

 STN(spatial transformer network) 和 SDTN 是來自一篇論文。SDTN也就是反變換將其座標返回到原圖上去。

  1. Localization net根據輸入圖,計算得到一個ΘΘ
  2. Grid generator根據輸出圖的座標點和ΘΘ,計算出輸入圖的座標點,舉例來說想知道輸出圖上(2,2)應該填充什麼座標點,則跟ΘΘ運算,得到(1.6,2.4)
  3. Sampler根據自己定義的填充規則(一般用雙線性插值)來填充,比如(2,2)座標對應到輸入圖上的座標爲(1.6,2.4),那麼就要根據輸入圖上(1.6,2.4)周圍的四個座標點(1,2),(1,3),(2,2),(2,3)的像素值來填充

     所以說,STN網絡可以通過bp來訓練。

Parallel SPPE(可以被認爲是訓練階段的regularizer)

    這個平行的分支與SSTN公用了STN部分,但是沒有SDTN部分。它的輸出直接和center-located ground truth對比。parallel SPPE的所有層的參數都是凍結的,它的作用是反向傳播誤差到STN模塊。如果提取的姿態不是位於中心的,parallel SPPE就會方向傳播大的誤差。這項可以幫助STN集中於爭取的區域,提取高質量的區域。那麼爲什麼不在SDTN之前對SPPE的輸出做loss。作者認爲這個方法會降低系統的性能,雖然STN會部分的變換輸入,但是不可能和label值一樣。作者認爲輸入和SPPE標籤的座標空間的差異,這樣會極大的影響SPPE學習姿態估計的能力(不是很理解,難道是網絡既要學習怎麼變換圖像還要學習姿態估計,會導致性能的下降)。

Parametric Pose NMS (p-Pose NMS)

    作者定義的姿態距離度量d(.)用來衡量姿態相似性。η是相處標準。如果d(.)小於η
,那麼f(.)的輸出應該爲1。說明姿態Pi和參考姿態Pj之間存在冗餘,需要被消除。

   Pose Distance

    距離函數d_{pose}(P_{i},P_{j}),我們假設Pi的box是Bi。然後定義了軟匹配函數。

tanh操作可以過濾掉低置信度的姿態。當兩個相應的結點都有很高的置信度,輸出近似1。這個距離可以計算姿態之間匹配關節的數目。

空間的部件之間的激勵也可以寫作上述公式。所以 最後的距離韓式爲:d(P_{i},P_{j}|\Lambda ) = K_{sim}(P_{i},P_{j}|\sigma _{1}) + \lambda H_{sim}(P_{i},P_{j}|\sigma _{2})。這裏的\Lambda =\left \{ \sigma_{1},{\sigma_{2},\lambda \right \}, η。不是人爲指定的,而是由數據驅動的方式。優化策略是固定兩個,優化其他兩個。

Pose-guided Proposal Generator

    因爲我們有每一個人的姿態ground truth,和目標檢測bounding box。我們可以產生很多和人類檢測器一樣分佈的大樣本用於訓練。

問題:不同姿態之間的檢測bounding box和ground truth之間的bounding box之間的offset分佈是不同的。具體而言,存在分佈P(\delta B|P)\delta B代表偏移量。作者建模了這個分佈。

方法:由於Pose很多,作者對Pose進行了聚類。所以,作者試圖學習P(\delta B|atom(P))。從人體姿態的標註獲得原子姿態。首先將所有姿態對齊,是他們的軀幹有相同的長度。然後使用K-means聚類。現在對於共享相同原子姿態a的每一個person實例,我們計算ground truth邊界框和檢測到的邊界框之間的偏移量。然後將偏移量按該方向對應的ground truth 的 bounding box邊長進行歸一化。經過這些處理後,偏移量形成了頻率分佈,,我們將數據擬合成高斯混合分佈。對於不同的原子姿態,我們有不同的高斯混合參數。

增強數據:先看訓練樣本對應的原子姿態,得到額外的偏移得到新的bounding box用於訓練。

 

    

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章