【姿態估計】DeepPose: 基於深度神經網絡的人體姿態估計

Alexander Toshev Christian Szegedy
Google
1600 Amphitheatre Pkwy
Mountain View, CA 94043
toshev,[email protected]

原文地址: https://arxiv.org/abs/1312.4659
引用請註明出處。

摘要

作者提出了一種基於深度神經網絡(DNN)的人體姿態估計方法。姿態估計被公式化爲針對身體關節的基於DNN的迴歸問題。作者提出了一系列這樣的DNN迴歸量。這種方法能夠產生高精度的姿態估計。該方法具有以整體方式推理姿態的優點,利用了深度學習的最新進展,並且具有簡單但強有力的表述。作者在各種各樣的真實世界圖像的四個學術benchmark上與經典方法進行了比較,提供了詳細的實證分析,有更好的表現。

1. 引言

人體姿態估計的問題(定義爲人體關節的定位問題)在計算機視覺社羣中受到了極大的關注。如 圖1 所示,人們可以看到這個問題的一些挑戰 :有些關節很大,而有些關節小到幾乎不可見,有些關節被遮擋(occlusions),此外還有捕捉背景的需要。該領域的歷史工作的動力主要源於第一個挑戰,即需要在大空間中搜索所有可能的關節姿態。基於部件的模型可以自然地模擬關節模型([16, 8]) 。近年來,已經提出了各種具有有效推理的模型([6, 19])。

fig1
圖1 除了關節的極端可變性外,許多關節幾乎看不見。在左圖中可以猜測右臂的位置,因爲能看到人體的其餘部分並預測到人的動作或活動。同樣,右側人的左半身完全看不見。這些是整體推理需求的例子。DNN可以自然地提供這種推理。

然而,上述效率是以有限的表現力——局部檢測器的使用爲代價實現的,它在許多情況下檢測單個部件,並且最重要的是通過僅對身體部位之間的所有相互作用的一小部分進行建模。這些限制,如圖1所示,已經被發現,並提出了以整體方式推理姿態的方法[15, 21]但在現實問題上取得的成功有限。

在這項工作中,作者歸納了人類姿態估計的整體觀點,並利用深度學習的最新進展提出了一種基於深度神經網絡(DNN)的新算法。DNN在視覺分類[14]和目標定位[23, 9]等任務方面表現出色。然而,將DNN應用於鉸接物體的精確定位的問題在很大程度上仍未得到解決。在本文中,作者試圖闡明這個問題,並基於DNN提出簡單而強大的整體人體姿態估計方法。

作者將姿態估計表示爲聯合迴歸問題,並展示如何在DNN設置中成功映射它。這種方法使用完整圖像和7層通用卷積DNN作爲輸入將每個身體關節的位置進行迴歸。這種彷彿有兩個優點。首先,DNN能夠捕獲每個身體關節的完整背景——每個關節迴歸器使用完整圖像作爲信號。其次,該方法比基於圖形模型的方法更容易制定 - 無需明確設計零件的特徵表示和檢測器;無需明確設計模型拓撲和關節之間的交互。相反,作者表明可以爲這個問題學習通用的卷積DNN。

此外,作者提出了一系列基於DNN的姿態預測器。這種級聯能提高聯合定位的精度。從初始姿態估計開始,基於完整圖像,作者學習基於DNN的迴歸量,通過使用更高分辨率的子圖像來改進聯合預測。

作者對他們state of art級別的結果,或者超過state of art的結果顯示於四種廣泛使用的基準測試。作者表明,作者的方法在人的圖像上表現良好,這些人在外觀和關節方面表現出很強的變化。最後,作者通過跨數據集評估展示了泛化性能。

2. 相關工作

從計算機視覺的早期就提出了一般性地表達鉸接物體,特別是人體姿態作爲部件圖形的想法[16]。Fishler和Elschlager提出了Pictorial Strictures(PSs)[8]方法,由Felzenszwalb和Huttenlocher [6] 使用距離變換技巧讓這個方法易於實現。隨後研究人員開發了具有實際意義的各種基於PS的模型。

然而,上述易處理的模型也具有以下限制:基於樹的姿態模型具有簡單的binary potential,這不依賴於圖像數據。因此,最近的研究專注於豐富模型的代表能力,同時保持易處理性。之前這一目標的嘗試是基於更豐富的部分探測器[19, 1, 4]。最近,研究人員提出了表達複雜關節關係的各種模型。楊和Ramanan [27] 使用部件的混合模型。Johnson和Everingham研究了在全模型尺度下具有多個PS的混合模型[13]。Tian等人在層次模型中捕獲了更豐富的高階空間關係[25]。捕獲高階關係的一種不同方法是通過依賴於圖像的PS模型,這可以通過全局分類器來估計[26, 20, 18]。

由於以整體方式推理姿態的理論已經顯示出有限的實用性。Mori和Malik [15] 嘗試爲每個測試圖像找到一組標記圖像中最接近的樣本並轉移關節位置。Shakhnarovich等人使用局部敏感哈希採用了類似的最近鄰設置[21]。最近,Gkioxari等人 [10] 提出用於零件配置的半全局分類器。這個公式在在真實數據上已經顯示出非常好的結果,但是,它基於線性分類器,其表達方式比作者的表達更少,並且僅在手臂上進行測試。最後,Ionescu等人採用了姿態迴歸的思想[11], 他們嘗試去推理3D姿態。

與作者最接近的工作是使用卷積NN和鄰域分量分析來回歸代表姿態的嵌入點[24],但是,這項工作不採用級聯網絡。級聯DNN迴歸已被用於面部特徵點識別的定位[22]。關於面部姿態估計的相關問題,Osadchy等 [17] 使用對比度損失採用基於NN的姿態embedding訓練。

3. 姿態估計的深度學習模型

作者使用以下符號。爲了表達姿態,作者在定義的姿態向量中編碼所有 kk 個身體關節的位置 y=(...,yiT,...)T,i{1,...,k}y =(..., y_i^T,...)^T,i\in \{1,...,k\} ,其中 yiy_i 包含第i個連接點的 xxyy 座標。帶標籤的圖像是用 (x,y)(x,y) 表示,其中 xx 代表圖像數據, yy 是ground truth。

此外,由於關節座標是絕對圖像座標,因此要將它們標準化爲限制人體或其部分的框 bb 。在一個簡單的情況下,框可以表示完整的圖像。這樣的方框由其中心 bcR2b_c\in\R^2 以及寬度 bwb_w 和高度 bhb_h 定義: b=(bcbwbh)b =(b_c,b_w,b_h) 。然後連接點 yiy_i 可以通過框中心進行平移,並通過框大小進行縮放,作者將其稱爲 bb 的歸一化:

(1)N(yi;b)=[1/bw001/bh](yibc)N(y_i;b)=\left[\begin{matrix}1/{b_w}&0\\0&1/b_h\end{matrix}\right](y_i-b_c)\tag{1}

此外,作者可以對姿態向量 N(y;b)=(...,N(yi;b)T,...)TN(y;b)=(...,N(y_i; b)^T ,...)^T 的元素應用相同的歸一化,從而得到歸一化的姿態矢量。最後稍微濫用以下符號,作者使用 N(x;b)N(x; b) 來表示邊界框 bb 對圖像 xx 的裁剪,這實際上是通過框來規範化圖像。爲簡潔起見,作者用 N()N(·) 來表示歸一化, bb 是完整的圖像框。

fig2
圖2 左:基於DNN的姿態迴歸的示意圖。作者用相應的尺寸可視化網絡層,其中卷積層爲藍色,而完全連接的層爲綠色。作者不顯示參數自由的層。右:在s個階段,將精細化迴歸應用於子圖像以改進前一階段的預測。

3.1 基於DNN迴歸的姿態估計

在這項工作中,作者將姿態估計的問題視爲迴歸,其中作者訓練並使用函數 ψ(x;θ)R2kψ(x;θ)\in \R^{2k} ,對於圖像 xx ,該函數迴歸歸一化的姿態向量,其中 θθ 表示該模型的參數。因此,使用方程(1) 進行歸一化變換,絕對圖像座標中的姿態預測 yy^∗ 可以被這樣得到:

(2)y=N1(ψ(N(x);θ))y^∗=N−1(ψ(N(x); θ))\tag{2}

儘管這個式子很簡單,但該方法的功效和複雜性是 ψψ 決定的,它基於卷積深度神經網絡(DNN)。這種卷積網絡由幾個層組成——每個層都是線性變換,但最後一層是非線性變換。第一層將預定義大小的圖像作爲輸入,並且其大小等於三個顏色通道乘以像素數。最後一層輸出迴歸的目標值,在作者的例子中是 2k2k 個座標。

作者將 ψψ 的結構建立在Krizhevsky等人[14] 用於圖像分類的工作基礎之上。它在目標定位方面也顯示出優異的結果[23]。簡而言之,該網絡由7層組成(見 圖2左 )。 CC 表示卷積層, LRNLRN 表示局部響應歸一化層, PP 表示池化層, FF 表示完全連接層。只有 CCFF 層包含可學習的參數,而其餘的參數是自由的。 CCFF 層都包括線性變換,並且在線性變換後是非線性變換,在作者的例子中的非線性變換是整流線性單元。對於 CC 層,它的大小定義爲寬度×高度×深度,其中前兩個維度具有空間含義,而深度是濾波器的數量。如果作者在括號中寫出每層的大小,那麼可以簡潔地描述網絡: C(555596)LRNPC(2727256)LRNPC(1313384)C(1313384)C(1313256)PF(4096)F(4096)C(55*55*96)-LRN-P-C(27*27*256)-LRN-P-C(13*13*384)-C(13*13*384)-C(13*13*256)-P-F(4096)-F(4096) 。濾波器前兩個 CC 層的尺寸爲11×11和5×5,其餘三個爲3×3。在三層之後應用池化,儘管分辨率降低,但仍有助於提高性能。網絡的輸入是220×220的圖像,通過4的步幅被饋送到網絡中。模型中的參數總數約爲40M。有關詳細信息,請參[14]。

通用DNN架構的使用受到其在分類和定位問題上的出色結果的推動。在實驗部分中,作者展示了這種通用架構可用於學習模型,從而在姿態估計方面產生最新技術或更好的性能。此外,這樣的模型是真正的整體模型——最終的關節位置估計基於完整圖像的複雜非線性變換。

另外,DNN的使用消除了設計特定域的姿態模型的需要,而是從數據中學習這樣的模型和特徵。雖然迴歸損失不能模擬關節之間的顯式交互,但是所有7個隱藏層都隱含地捕獲了這些關係——所有內部特徵都由所有聯合迴歸分享。

訓練 本文的與[14]的差異是損失。與分類損失不同的是,作者訓練線性迴歸的最後一個網絡層,通過最小化預測和真實姿態向量之間的 L2L_2 距離來預測姿態向量。由於ground truth的姿態向量是在絕對圖像座標中定義的,並且姿態在圖像之間大小不同,因此作者使用來自公式(1)的歸一化來標準化作者的訓練集:

(3)DN=(N(x),N(y))(x,y)DD_N={(N (x), N (y))|(x, y) ∈ D}\tag{3}

然後,用於獲得最佳網絡參數的 L2 損失:

(4)argmin(x,y)DNi=1kyiψi(x;θ)22\arg\min\sum_{(x,y)\in D_N}\sum_{i=1}^{k}||y_i-ψ_i(x;\theta)||_2^2\tag{4}

爲清楚起見,作者寫出了對各個關節的優化。應該注意,即使對於某些圖像並非所有關節都被標記,也可以使用上述目的。在這種情況下,將省略總和中的相應項。

上述參數 θθ 針對在分佈式在線實現中使用反向傳播進行了優化。對於尺寸爲128的每個小批,計算自適應梯度更新[3]學習率作爲最重要的參數,設置爲0.0005。由於模型具有大量參數且使用的數據集的大小相對較小,因此作者使用大量隨機翻譯的圖像裁剪來增加數據(參見3.2章),左/右翻轉以及 FF 層的DropOut正則化設置爲0.6。

3.2 級聯姿態迴歸器

來自前一部分的姿態公式具有以下優點:聯合估計基於完整圖像並因此依賴於上下文。然而,由於其固定輸入大小爲220×220,網絡查看細節的能力有限——它學習的濾波器以粗略的比例捕獲姿態屬性。這些粗糙姿態的估計是必要的,但不足以始終精確地定位身體關節。值得注意的是,不能輕易增加輸入大小,因爲這樣將增加已經很多的參數。爲了獲得更好的精度,作者建議訓練一系列姿態迴歸量。在第一階段,級聯通過估計初始姿態開始,如上一節所述。在後續階段,訓練額外的DNN迴歸器以預測從前一階段到真實位置的關節位置的位移。因此,每個後續階段可以被認爲是當前預測姿態的細化,如 圖4 所示。

此外,每個後續階段使用預測的關節位置來聚焦在圖像的相關部分上——子圖像在前一階段的預測關節位置周圍被裁剪,並且該關節的姿態位移回歸量被應用於該子圖像。通過這種方式,隨後的姿態迴歸器可以得到更高分辨率的圖像,從而學習更精細尺度的特徵,從而最終實現更高的精度。

作者對級聯的所有階段使用相同的網絡架構,但學習不同的網絡參數。對於階段 s{1,...,S}s\in \{1,...,S\} ,共S個級聯階段,作者用 θsθ_s 表示學習的網絡參數。因此,姿態位移回歸量是 ψ(x;θs)ψ(x;θ_s) 。給定關節位置 yiy_i ,計算一個關節邊界框 bib_i ,以捕獲 yiy_i 周圍的子圖像:bi(y;σ)=(yi,diam(y)σ,diam(y)σ)b_i(y;σ)=(y_i,diam(y)σ,diam(y)σ) 以第 ii 個座標作爲中心,並且尺度爲 σσ 。姿態的直徑 diam(y)diam(y) 定義爲人體軀幹上關節之間的相對距離,例如左肩和右臀,並取決於具體的姿態定義和數據集。

使用上述表示法,在階段 s=1s = 1 時,作者從邊界框 b0b^0 開始,該邊界框 b0b^0 包圍整個圖像或由人檢測器獲得。這樣作者獲得了一個初步姿態:

(5)Stage 1:y1N1(ψ(N(x;b0);θ1);b0)Stage\ 1:y^1←N^{−1}(ψ(N(x;b^0);θ_1);b^0)\tag{5}

在每個後續階段 s2s≥2 ,對於所有關節 i{1,...,k}i∈\{1,...,k\} 作者通過在子圖像上應用迴歸來精細化位置 yisyi(s1)y_i^s -y_i^{(s−1)} 。子圖像由來自之前 (s1)(s-1) 層的 bi(s1)b_i^{(s−1)} 定義。然後,作者重新估計方框 bisb_i^s

(6)Stage 2:yisNi1(ψi(N(x;b);θs);b) for b=bi(s1)Stage\ 2:y_i^s←N_i^{−1}(ψ_i(N(x;b);θ_s);b)\ for\ b=b_i^{(s-1)}\tag{6}

(7)bis(yis,diam(ys)σ,diam(ys)σ)b_i^s←(y_i^s,diam(y^s)\sigma,diam(y^s)\sigma)\tag{7}

作者將級聯應用於S個階段,如4.1所述。

訓練 網絡參數 θ1θ_1 按照第3.1節中的公式(4)訓練。在隨後 s2s\geq2 的階段,訓練完成相同的微分。來自訓練樣本 (x,y)(x,y) 的每個關節 ii 使用不同的邊界框 (y(s1),diam(y(s1))σ,diam(y(s1))σ)(y(s−1),diam(y^{(s−1)})σ,diam(y^{(s−1)})σ) 來標準化——這個邊界框是從之前的層次中的相同關節爲中心——這樣作者就可以根據前一階段的模型來調整階段的訓練。

由於深度學習方法要訓練很大的體量,作者通過對每個圖像和關節使用multiple normalization來增加訓練數據。作者不僅使用前一階段的預測,而是生成模擬預測。這是通過從二維正態分佈 Ni(s1)\mathcal N_i^{(s−1)} 隨機抽樣的矢量隨機移動關節 ii 的ground truth位置來完成的,二維正態分佈其均值和方差等於觀察到的訓練數據中的偏置量 (yi(s1)yi)(y_i^{(s−1)}-y_i) 相同。被增強的完整訓練數據可以這樣定義:從均勻的原始數據中採樣一個樣本和一個關節,然後根據從 Ni(s1)\mathcal N_i^{(s-1)} 的採樣的位移 δδ 生成模擬預測:

DAs={(N(x;b),N(yi;b))(x,yi)D,δNi(s1),b=(yi+δ,diam(y)σ)}D_A^s=\{(N(x;b),N(y_i;b))|(x,y_i)\sim D,\delta\sim\mathcal N_i^{(s-1)},b=(y_i+\delta,diam(y)\sigma)\}

級聯階段的訓練目標如 公式4 所示,通過特別注意來爲每個關節使用正確的標準化:

(8)θs=argminθ(x,yi)DAsyiψi(x;θ)22\theta_s=\arg\min_\theta\sum_{(x,y_i)\in D_A^s}||y_i-ψ_i(x;\theta)||_2^2\tag{8}

4. 實驗評估

4.1. 實驗設定

數據集 人體姿態估計有各種各樣的基準。在這項工作中,作者使用具有足夠的大量訓練樣本的數據集來訓練大型模型,例如所提出的DNN。

使用的第一個數據集是Frames Labeled In Cinema(FLIC)[20],其中包括來自好萊塢流行電影的4000個訓練圖像和1000個測試圖像。這些圖像包含各種姿態的人和各種各樣的服裝。對於每個標記的人,標記了10個上身關節。

第二個數據集是Leeds Sports Dataset[12] 及其擴展[13],作者將通過LSP聯合表示。結合它們包含11000個訓練圖像和1000個測試圖像。這些來自體育活動的圖像在外觀特別是關節方面都非常具有挑戰性。此外,大多數人具有150像素高度,這使得姿態估計更具挑戰性。在該數據集中,對於每個人,全身總共標記有14個關節。

對於所有上述數據集,作者將姿態 yy 的直徑定義爲肩部和臀部之間的距離對立面並用 diam(y)diam(y) 表示。應該注意的是,所有數據集中的關節都排列在運動學上模仿人體的樹中。這允許將肢體定義爲姿態樹中的一對相鄰關節。

度量標準 爲了能夠與已發佈的結果進行比較,作者將使用兩個廣泛接受的評估度量標準。正確部位(PCP)的百分比用於測量肢體的檢測率,如果兩個預測的關節位置與真實肢體關節位置之間的距離大於肢體長度的一半,則認爲檢測到肢體[5]。PCP是最初優選的評估指標,但它具有難以檢測較短肢體的缺點,例如較低的手臂通常較難檢測。

爲了解決這個缺點,最近關於關節的檢測率使用不同的檢測標準——如果預測關節和真實關節之間的距離在軀幹直徑的特定部分內,則認爲檢測到關節。通過改變該分數,獲得不同程度的定位精度的檢測率。該度量減輕了PCP的缺點,因爲所有關節的檢測標準都基於相同的距離閾值。作者將此度量標準稱爲檢測到的關節百分比(PDJ)。

實驗細節 對於所有實驗,作者使用相同的網絡架構。作者在FLIC上使用身體探測器來初步獲得人體邊界框的粗略估計,這種靈感來自[7]。它基於面部檢測器——檢測到的面部矩形由固定的縮放器放大。該縮放器根據訓練數據確定,使得它包含所有標記的關節。這種基於面部的身體檢測器可以進行粗略估計,但這爲作者的方法提供了一個很好的起點。對於LSP,作者使用完整圖像作爲初始邊界框,因爲人類在設計上相對緊密地裁剪。

對每個數據集使用一組50個的小圖像來確定算法超參數。爲了測量參數的最優性,所使用PDJ的平均值超過所有關節0.2。縮放器 σσ 被定義爲精化關節邊界框的大小,作爲姿態大小的一部分:對於FLIC,作者在探索值0.8、1.0、1.2之後選擇 σ=1.0σ= 1.0 ,對於LSP作者嘗試1.5、1.7、2.0、2.3後使用 σ=2.0σ=2.0 。級聯級數 S 由訓練階段確定,直到算法停止改進爲止。對於FLIC和LSP,作者令 S=3S=3

爲了改進泛化,對於從 s=2s=2 開始的每個級聯階段,作者通過對每個關節抽樣40個隨機變換過的裁剪框來增加訓練數據,如 3.2節 中所述。因此,對於具有14個關節的LSP並且在對鏡像進行鏡像並對數量進行採樣後,訓練樣本數目爲11000×40×2×14=12M,這對於訓練大型網絡是必要的。

所提出的算法可以進行有效的實現。在12核CPU上測量,運行時間約爲每個圖像0.1秒。這與其他方法相比是有利的,因爲一些當前最先進的方法具有更高的複雜性:[20] 約4秒,[27] 在1.5秒內運行。本算法的訓練的複雜性更高。初始階段消耗大約3天去訓練。大部分最終表現是在12小時後完成的。每個細化階段都訓練了7天,因爲數據量比初始階段的數據大40被,這是由於3.2章中的數據增加造成的。以後使用更多數據可以提高性能。

4.2 結果與討論

比較 作者將結果與其他方法進行比較。作者在 圖1 中使用PCP度量在LSP數據集上進行比較。作者顯示了四個最具挑戰性的結果——下臂和上臂和腿——以及所有比較算法的平均值。作者明顯優於所有其他方法,特別是實現更好的腿部估計。例如,對於上腿,作者從0.74優化到了0.78。值得注意的是,雖然其他方法對特定肢體表現出優勢,但其他數據集都不能始終支配所有肢體。相反,DeepPose對所有具有挑戰性的肢體都表現出強烈的效果。

fig3
圖3 FLIC上檢測到的關節肘部和腕部的百分比(PDJ):將兩個級聯階段後的DeepPose與其他四種方法進行比較。

tab1
表1 用於Deep-Pose的LSP上的正確部分(PCP)的百分比爲0.5,以及與五種最先進的方法的比較。作者使用稍微寬鬆的PCP版本,用每個肢體的平均值與預測肢體關節的距離用於確定是否正確檢測到肢體。作者使用以人爲中心的表示。

fig4
圖4 DeepPose和Dantone等人[2]在四肢的LSP上檢測到的關節(PDJ)的百分比。在距離真實關節的較大距離範圍內——軀幹直徑的[0,0.5]。DeepPose的結果用實線繪製,而所有結果用[2]以虛線繪製。來自兩種算法的相同關節的結果用相同顏色着色。

作者使用PDJ度量時改變預測和ground truth之間的距離的閾值。該閾值可以被認爲是顯示檢測率的定位精度。因此,可以比較不同期望精度的方法。作者在 圖3 顯示FLIC數據集的實驗結果。另外四種方法在LSP數據集的比較也在 圖4 中顯示。作者根據每個數據集進行訓練和測試。與之前的實驗類似,作者方法優於所有五種已有算法。在檢測粗糙姿態而不精確定位關節的情況下,作者在低精度域中的增益更大。在FLIC上,當歸一化距離爲0.2時,肘部和腕部的檢測率增加了0.15和0.2。在LSP上,在歸一化距離爲0.5時,作者得到實驗結果增加了0.1。在LSP的標準化距離爲0.2的低精度狀態下,在腿部檢測上的性能比較好,但在胳膊檢測上的效果稍差。這可以歸因於這樣一個事實,即基於DNN的方法使用7層變換計算聯合座標,其中一些變換包含max pooling層。另一個事實是作者的方法適用於電影數據以及線連接的數據,例如LSP中的體育圖像。

fig5
圖5 FLIC上檢測到的關節(PDJ)或DNN級聯的前三個階段的百分比。在更大範圍的預測和ground truth之間歸一化距離上呈現結果。

fig6
圖6 三級級聯網絡預測姿態爲紅色和地面ground truth的姿態爲綠色。

fig7
圖7 Buffy數據集上檢測到兩個關節的關節(PDJ)的百分比:肘部和手腕。這些模型已經在FLIC上接受過訓練。將兩個級聯階段後的DeepPose與其他四種方法進行比較。

tab2
表2 DeepPose的Image Parse數據集上的0.5的正確部分(PCP)的百分比以及Image Parse數據集上的兩種最先進的方法[18]獲得的結果。

基於級聯細化的影響 單個基於DNN的關節迴歸器給出了粗糙的關節位置。然而,爲了獲得更高的精度,級聯的後續階段(其作爲初始預測的改進)是至關重要的。 圖5 中作者提出了不同精度的檢測,用於初始預測以及隨後的兩個級聯階段。正如預期的那樣,作者可以看到細化的主要收穫是在標準化距離爲[0.15,0.2]的高精度方案。此外,經過一個細化階段後,主要的增益得以實現。原因是後續階段最終在每個關節周圍使用較小的子圖像。雖然隨後的層看起來更高分辨率的輸入,但他們使用的背景更有限。

優化的幫助在圖6中可視化。初始階段通常在估計大致正確的姿態時是成功的,但是,這不會“捕捉”到正確的姿態。例如,在第三行中,姿態具有正確的形狀但是不正確的比例。在第二行中,預測的姿態從理想狀態向北移動。在大多數情況下,級聯的第二階段解決這個對齊問題,以更好地對齊關節。在更罕見的情況下,例如在第一行中,進一步的階段改善了各個關節的檢測效果。

跨數據集泛化 爲了評估算法的泛化屬性,作者在兩個相關數據集上使用LSP和FLIC上的訓練模型。在LSP上訓練的全人模型在Image Parse數據集[19] 的測試部分上進行測試,結果列於表中2。ImageParse數據集類似於LSP,因爲它包含進行體育運動的人,但它包含許多來自其他活動的個人照片集的人。此外,將在FLIC上訓練的上身模型應用於整個Buffy數據集[7]。作者可以看到作者的與其他方法相比,該方法可以保持最好的性能。這顯示了良好的泛化能力。爲了能更好地展示作者的算法的性能,作者在 圖8 中可視化來自LSP的圖像上的姿態估計樣本。可以看到作者的算法能夠在各種條件下獲得大多數關節的正確姿態:顛倒的人(第1行,第1列),嚴重的縮短(第1行,第3列),不尋常的姿態(第3行,列5),第3行、第2列、第6列中的遮擋的手臂和遮擋的肢體,以及不尋常的照明條件(第3行,第3列)。在大多數情況下,當估計的姿態是不精確,它仍然具有正確的形狀。例如,在最後一行中,一些預測肢體未與真實位置對齊,但是姿態的整體形狀是正確的。當從後面拍攝人物時,常見的故障模式會使左右混淆(第6行,第6列)。FLIC的結果(見 圖9 ) 中下臂偶爾會出現明顯錯誤。

fig8
圖8 來自LSP的圖像的姿態結果的可視化。每個姿態都表示爲一個從預測的關節推斷出來的簡筆畫。同一圖像中的不同肢體被不同地着色,不同圖像上的相同肢體具有相同的顏色。

fig9
圖9 來自FLIC的圖像的姿態結果的可視化。圖例的含義與 圖1 中的相同。

5. 結論

作者提出了深度神經網絡(DNN)在人體姿態估計中的首次應用,將問題表述爲基於DNN的迴歸到關節座標。所呈現的這種迴歸的級聯具有以整體方式捕獲關於姿態的背景和推理的優點。因此,作者能夠在幾個具有挑戰性的學術數據集上實現最先進或更好的結果。

此外,作者展示了使用通用卷積神經網絡的方法,該網絡最初是爲分類設計的任務,可以應用於不同的本地化任務。將來,作者計劃研究新穎的架構,這些架構可能更適合一般的定位問題,尤其是姿態估計。

致謝

作者要感謝Luca Bertelli,Ben Sapp和Tianli Yu對數據和成果的幫助

參考文獻

[1] M. Andriluka, S. Roth, and B. Schiele. Pictorial structures revisited: People detection and articulated pose estimation. In CVPR, 2009.
[2] M. Dantone, J. Gall, C. Leistner, and L. Van Gool. Human pose estimation using body parts dependent joint regressors. In CVPR, 2013.
[3] J. Duchi, E. Hazan, and Y. Singer. Adaptive subgradient methods for online learning and stochastic optimization. In
COLT. ACL, 2010.
[4] M. Eichner and V. Ferrari. Better appearance models for pictorial structures. 2009.
[5] M. Eichner, M. Marin-Jimenez, A. Zisserman, and V. Ferrari. Articulated human pose estimation and search in (almost) unconstrained still images. ETH Zurich, D-ITET, BIWI, Technical Report No, 272, 2010.
[6] P. F. Felzenszwalb and D. P. Huttenlocher. Pictorial structures for object recognition. International Journal of Computer Vision, 61(1):55–79, 2005.
[7] V. Ferrari, M. Marin-Jimenez, and A. Zisserman. Progressive search space reduction for human pose estimation. In CVPR, 2008.
[8] M. A. Fischler and R. A. Elschlager. The representation and matching of pictorial structures. Computers, IEEE Transactions on, 100(1):67–92, 1973.
[9] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
[10] G. Gkioxari, P. Arbel´aez, L. Bourdev, and J. Malik. Articulated pose estimation using discriminative armlet classifiers. In CVPR, 2013.
[11] C. Ionescu, F. Li, and C. Sminchisescu. Latent structured models for human pose estimation. In ICCV, 2011.
[12] S. Johnson and M. Everingham. Clustered pose and nonlinear appearance models for human pose estimation. In BMVC, 2010.
[13] S. Johnson and M. Everingham. Learning effective human pose estimation from inaccurate annotation. In CVPR, 2011.
[14] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[15] G. Mori and J. Malik. Estimating human body configurations using shape context matching. In ECCV, 2002.
[16] R. Nevatia and T. O. Binford. Description and recognition of curved objects. Artificial Intelligence, 8(1):77–98, 1977.
[17] M. Osadchy, Y. LeCun, and M. L. Miller. Synergistic face detection and pose estimation with energy-based models. The Journal of Machine Learning Research, 8:1197–1215, 2007.
[18] L. Pishchulin, M. Andriluka, P. Gehler, and B. Schiele. Poselet conditioned pictorial structures. In CVPR, 2013.
[19] D. Ramanan. Learning to parse images of articulated bodies. In NIPS, 2006.
[20] B. Sapp and B. Taskar. Modec: Multimodal decomposable models for human pose estimation. In CVPR, 2013.
[21] G. Shakhnarovich, P. Viola, and T. Darrell. Fast pose estimation with parameter-sensitive hashing. In CVPR, 2003.
[22] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 3476–3483. IEEE, 2013.
[23] C. Szegedy, A. Toshev, and D. Erhan. Object detection via deep neural networks. In NIPS 26, 2013.
[24] G. W. Taylor, R. Fergus, G. Williams, I. Spiro, and C. Bregler. Pose-sensitive embedding by nonlinear nca regression. In NIPS, 2010.
[25] Y. Tian, C. L. Zitnick, and S. G. Narasimhan. Exploring the spatial hierarchy of mixture models for human pose estimation. In ECCV, 2012.
[26] F.Wang and Y. Li. Beyond physical connections: Tree models in human pose estimation. In CVPR, 2013.
[27] Y. Yang and D. Ramanan. Articulated pose estimation with flexible mixtures-of-parts. In CVPR, 2011.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章