微軟開源3D人體姿態估計的交叉視圖融合算法,提高SOTA精度

今天分享一下微軟亞洲研究院新的開源3D姿態估計的一篇論文:用於3D人體姿勢估計的Cross View Fusion,它大大減少了3D姿態估計的誤差。

在H36M數據集上,MPJPE(關節點誤差平均值)從之前的最佳結果從52mm下降到26mm,這是一個顯着的改進,相信該算法將成爲該領域的重要參考。

簡介

由於引入了深度神經網絡, D姿勢估計取得了重大進展。

已經致力於估計相對 3D從單眼圖像構成。估計的姿勢以骨盆關節爲中心,因此不知道它們在環境中的絕對位置(世界座標系)。

在本文中,我們解決估計絕對的問題3D構成在世界座標來自多個攝像機的系統,大多數作品遵循的第一估計管線2d的姿勢,然後恢復3D從他們的姿勢。然而,後一步驟通常取決於第一步的性能,不幸的是,在實踐中通常具有大的誤差,尤其是當圖像中出現遮擋或運動模糊時。這就提出了最後一大挑戰3 d估計。

在另一方面,使用畫報結構模型(PSM)爲3D姿態估計可以減輕不準確的影響2個通過考慮它們的空間依賴性d關節。它通過N × N × N網格離散根關節周圍的空間,並將每個關節分配給N 3個區間(假設)中的一個。它共同最小化所估計之間的投影誤差3 d姿勢和2D姿勢,以及關節及其先前結構的空間配置的差異。然而,空間離散化導致大的量化誤差。例如,當人體周圍的空間大小爲2000毫米且N爲32時,量化誤差大至30毫米。我們可以通過增加N來減少誤差,但是推理成本也會在O (N 6)處增加,這通常是難以處理的。

我們的工作旨在解決上述挑戰。首先,我們獲得更精確的2 d構成通過從使用基於CNN方法的多個視圖共同估計它們。它完美解決查詢不同視圖之間的對應位置的挑戰2 d構成熱圖的融合。我們通過融合神經網絡實現這個想法,如圖1所示。融合網絡可以與任何基於CNN被集成2 d構成的端至端的方式估計器沒有中間監督。

第二,我們提出遞歸畫報結構模型(RPSM),以回收3D從估計多視圖姿態2 D姿勢熱圖。從PSM直接離散化的空間成大量倉,以便控制量化誤差不同,RPSM 遞歸離散化圍繞每個關節的位置的空間(在先前的迭代估計的)轉換成更細粒度的使用網格小箱數。其結果,所估計的3 d姿態是精製步步。由於每個步驟中的N通常較小,因此單次迭代的推理速度非常快。在我們的實驗中,RPSM將誤差降低了至少50 % 與PSM相比,推理時間幾乎沒有增加。

爲2 d對本H36M數據集估計,在所有關節的平均檢測率提高了從89 %至96 %。對於最具挑戰性的“腕關節”,這種改善意義重大。對於3 d姿態估計,改變PSM到RPSM顯着降低從平均誤差77國毫米至26毫米。即使與平均誤差爲52 mm 的最先進方法相比,我們的方法也將誤差減半。我們進一步評估我們在Total Capture數據集上的方法驗證其泛化能力。它仍然優於最先進的。

圖1:交叉視圖融合2 d姿態估計。首先將圖像饋入CNN以獲得初始熱圖。然後,每個視圖的熱圖通過融合層與來自其他視圖的熱圖融合。整個網絡是端到端學習的。

我們首先回顧上多視角的相關工作3D姿態估計,並討論他們從我們的工作有什麼不同。然後我們討論一些關於特徵融合的技術。

多視圖3 D姿態估計

許多方法提出了用於多視圖姿態估計。它們首先定義表示爲簡單基元的主體模型,然後優化模型參數以將主體模型的投影與圖像特徵對齊。這些方法在使用的圖像特徵和優化算法方面不同。

我們集中在其上廣泛用於物體檢測的畫報結構模型(PSM)到對象部件之間的空間相關性進行建模。這種技術也被用於2D 和3D姿態估計所在部位是人體關節或肢體。第一估計2D與PSM多視圖設置姿勢,然後獲得3D提出通過直接三角測量。後來佈雷紐斯和Pavlakos延伸到PSM多視圖3D人體姿勢估計。例如,在他們首先估計2D獨立地構成爲每個視圖,然後恢復3D姿態使用PSM。我們的工作與其它不同之處在於我們將PSM擴展到遞歸版本RPSM,它可以逐步有效地細化3D姿態估計。另外,他們不像我們那樣執行交叉視圖特徵融合。

多圖像特徵融合

融合來自不同來源的特徵是計算機視覺文獻中的常見做法。例如,根據光流將相鄰幀(在視頻序列中)的特徵翹曲到當前幀,以便魯棒地檢測物體。Ding提出聚合多尺度特徵,這些特徵對於大小物體都實現了更好的分割精度。有人提出來估計2D構成通過探索多視點圖像之間的幾何關係。它從我們的工作不同,它不融合其他意見的功能,以獲得更好的2D熱圖。相反,他們使用的多視點3D幾何關係來選擇“不完美”熱圖的聯合位置,還有多視圖一致性被用作訓練姿勢估計網絡的監督源。據我們所知,沒有以前的工作,融合多視圖的功能,以獲得更好的2D造成熱圖,因爲它是一個具有挑戰性的任務找到跨越這是我們的這個重要貢獻一個不同的觀點相應的功能工作。

圖2:對極幾何:圖像點Y u P反向投影到由相機C u和Y u P定義的3D光線。該線在相機C v中像我一樣成像。投射到Y u P的3D點P必須位於此光線上,因此攝像機C v中的P圖像必須位於I上。

圖3:一個通道的雙視圖特徵融合。頂部網格表示視圖A的特徵圖。視圖A中的每個位置通過權重矩陣連接到視圖B中的所有像素。對於極線上的位置(黃色細胞中的數字),權重大多爲正。視圖A中的不同位置具有不同的權重,因爲它們對應於不同的極線。

用於2 D姿態估計的3個交叉視圖融合

RPSM用於多視圖3 D姿態估計

離散狀態空間

我們首先三角測量3使用其根關節的位置d 2點中的所有視圖檢測d的位置。則的狀態空間3 d姿態被約束爲一個內3在根關節中心的d包圍體。邊長小號的體積被設定爲2000年毫米。體積通過N × N × N網格G離散化。所有身體關節共享相同的狀態空間G,其由N 3個離散位置(箱)組成。

一元電位

每一個身體聯合假設,在網格中的倉ģ,是由它的定義3在世界系統d位置座標。我們使用相機參數將其投影到所有相機視圖的像素座標系,並從F獲得相應的關節置信度。我們將所有相機視圖的平均置信度計算爲假設的一元可能性。

成對電位

離線,對於邊集E中的每對關節(J m,J n),我們計算訓練集上的平均距離~ l m ,n作爲肢體長度先驗。在推理期間,成對電位定義爲:

其中l m ,n是J m和J n之間的距離。成對術語傾向於3 d構成具有合理肢長度。在我們的實驗中,ε設定爲150毫米。

圖4:我們實驗中使用的人體圖形模型。有17個變量和16個邊

遞歸圖形結構模型

PSM模型遭受由空間離散化引起的大量化誤差。例如,當我們像之前的工作一樣設置N = 32時,量化誤差大到30毫米(s 32 × 2其中s = 2000是邊界體積的邊長。增加N可以減少量化誤差,但計算時間很快變得難以處理。例如,如果N = 64,則推理速度將爲 64=(6432)6。

我們建議通過多階段過程遞歸細化關節位置,並在每個階段使用小N,而不是在一次迭代中使用大N. 在第一階段( t=0),我們離散化3使用粗網格的三角根關節周圍d邊界體積空間(Ñ = 16),並獲得初始3D姿態估計大號= ( L1,⋯,LM)使用PSM方法。

FO以下階段(噸≥ 1),對於每個關節Ĵ 我,我們離散圍繞其當前位置的空間大號我成 2×2×2 grid G(i)。這裏的空間離散化與PSM的區別在於雙重。首先,不同的關節有自己的網格,但在PSM中,所有關節共享相同的網格。有關該想法的說明,請參見圖5。其次,邊界體積的邊長隨着迭代而減小:s t = s t - 1 N.。這是網格與前一階段相比變得更細粒度的主要原因。

我們不是獨立地改進每個關節,而是考慮到它們的空間關係,同時細化所有關節。回想一下,我們知道網格的中心位置,大小和網箱數量。因此,我們可以計算網格中每個bin的位置,我們可以用它來計算一元和成對電位。值得注意的是,成對電位應該在運行中計算,因爲它取決於先前估計的位置。但是,因爲我們將N設置爲較小的數字(在我們的實驗中爲兩個),所以這種計算很快。

圖5:遞歸圖像結構模型的圖示。假設我們在前一次迭代中分別估計了兩個關節J m和J n的粗略位置L m和L n。然後我們將兩個關節周圍的空間劃分爲更細粒度的網格,並估計更精確的位置

實驗結果

作者在H36M與MPII數據集上進行了實驗

實驗中不同誤差級別的圖像關鍵點結果可視化實例:

論文地址:

https://arxiv.org/pdf/1909.01203.pdf

論文源碼關注微信公衆號:“圖像算法”或者微信搜索賬號imalg_cn關注公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章