A HAND POSE TRACKING BENCHMARK FROM STEREO MATCHING

摘要

  在本文中,我們建立了一個長期的3D手勢跟蹤基準。它包含18,000個立體圖像對以及來自不同場景的手掌和手指關節的地面真實3D位置。同時,爲了準確地從立體圖像中分割手部,我們提出了一種新穎的基於立體的手部分割和深度估計算法,專門用於手部跟蹤。實驗證明其跟蹤性能通過在各種具有挑戰性的情況下與使用深度傳感器相當,表明了所提出的算法的有效性。

1 介紹

  基於視覺的手姿勢跟蹤可以應用於包括人機交互系統在內的一系列場景。文獻調查已在[1]中提出。具有挑戰性的困難包括高維鉸接結構,嚴重的自閉塞和色度均勻的外觀,這可以通過包含深度信息來解決。估計深度的傳統方式來自有源深度傳感器或無源立體聲。但是,有源傳感器可能會受到其他有源光源(如太陽或其他有源傳感器)的干擾。此外,有源傳感器具有相對高的功耗並且不適用於移動設備。或者,可以從無源傳感器獲得深度。但它很慢並且深度估計是有噪聲的和不穩定的,尤其是當場景缺乏紋理時。
  目前,利用有源深度傳感器捕獲現有的手部跟蹤數據集[2-7]。在本文中,我們使用從被動立體聲獲得的深度信息來解決手姿勢跟蹤問題。爲了評估用於手姿勢跟蹤的無源立體聲的性能,提出了一種新的基準。該數據集由Point Grey Bumblebee2立體相機和Intel Real Sense F200有源深度相機同時捕捉。我們在深度圖像中手動標記手指關節和手掌中心的位置。我們的基準測試包含六種不同難度級別的環境,用於手部分割和差距估計。存在自遮擋或全局旋轉時很難跟蹤手部姿勢,因此我們在有和沒有這兩個跟蹤困難的情況下捕獲每個環境的兩個序列。因此,我們的基準測試有12種不同的序列,每個序列包含1500個立體對和深度圖像。
  在執行跟蹤之前,應該預先對手區域進行分段。主動深度傳感器可以提供精確的深度信息,這簡化了手部分割。然而,使用被動立體聲的不準確深度難以分割手部。我們使用有效的基於顏色的皮膚檢測方法[8]進行手部分割,並發現在無約束環境(例如,不同的照明條件和背景)下發生的限制。爲了適應不同的環境,我們在跟蹤之前揮動手來捕獲在線訓練序列。然後使用自適應高斯混合模型(GMM)[9,10]來執行前景/背景分割,並將前景視爲膚色。然後可以計算皮膚和非皮膚直方圖模型,並且我們使用皮膚顏色概率進行手部分割。
  有很多立體匹配方法[11-14]。然而,它們的性能比有源傳感器更不穩定並且有噪聲。我們在這裏提出了一種新的手部跟蹤立體算法。爲了實現手部跟蹤的實時性能,所提出的立體聲基於有效的傳統局部立體匹配[15]。膚色概率用作引導圖像濾波器[16],用於匹配成本聚合以增加無紋理區域周圍的魯棒性。由於一些背景區域可能具有與皮膚相似的顏色並且具有高皮膚概率,因此通過使用基於顏色的手部分割和來自立體匹配的深度的置信度組合來提出魯棒的手部分割方法。實驗表明,所提出的立體方法提高了跟蹤性能。
  爲了評估立體聲序列的手部跟蹤,我們實現了兩種手姿勢跟蹤方法[3,17]。實驗表明,使用所提出的立體匹配的跟蹤可以實現與主動深度相機相當的性能。
  本文的貢獻是:

  • 具有18000個立體圖像對的手勢基準;
  • 強大的立體匹配,專爲3D手勢跟蹤而設計,與主動深度傳感器的性能相當。

2 基於立體定位的手追蹤基準

  如圖1所示,所提出的基準包含具有6個環境的序列,以評估基於立體的手勢跟蹤。室內環境通常無紋理,這顯着增加了被動立體聲的難度。對於立體匹配和膚色建模,高光(B3)和陰影(B4,B5)也非常具有挑戰性。除了靜態背景,我們還捕獲3個具有動態背景的序列,包括PowerPoint演示(B4),視頻播放(B5)和人行走(B6)。
image
圖1.基準測試中的六種不同環境。
  由於自遮擋和全局旋轉是手部跟蹤中的兩個主要挑戰,因此我們針對具有兩種不同姿勢的每個環境捕獲兩個序列,如圖2所示。從圖2(a)-(d)可以看出,人們用緩慢移動的手指捕捉簡單的計數姿勢。對於手姿勢跟蹤,另一個應該更加困難。手/手指隨着嚴重的自閉塞和全局旋轉隨機移動,如圖2(e)-(h)所示。計數和隨機姿勢被設計爲在所有6個環境中相似,以確保公平比較。
image
圖2.基準測試中兩種不同類型的手部姿勢。(a)-(d)是簡單的計數姿勢。(e)-(h)是隨機的困難姿勢。
  爲了進行定量比較,我們同時從Point Grey Bumblebee2立體相機和Intel Real Sense F200主動深度相機捕捉立體和深度圖像。預先執行相機校準[18]以獲得相機的參數。我們在深度圖像中手動標記手指關節和手掌中心的地面實況位置。我們的基準測試總共有12個序列,每個序列包含1500個幀。

3 基於立體定位的手部跟蹤

  本節介紹了所提出的基於立體的手姿勢跟蹤方法的細節。該框架總結在圖3中。
image
圖3.所提出的基於立體的3D手姿勢跟蹤方法的框架。

3.1 基於手部建模的訓練

  如上所述,應在跟蹤之前執行分段。與主動深度相機採用的分割方法不同,很難從被動立體聲獲得準確的深度。從顏色分割手很困難。一些背景顏色可能與皮膚相似。此外,在不同的光照條件下,膚色也可能不同。很難構建適用於所有場景的通用顏色模型。
  爲了解決這些問題,提出了一種基於在線訓練的膚色檢測器。在跟蹤之前捕獲訓練序列。自適應GMM[9,10]是一種實時背景建模方法,用於從背景中分割前景手。手應該在訓練序列中揮動(持續幾秒鐘),以確保它被檢測爲前景。
  在前景分割之後,假設前景對象是具有特定膚色的手。計算手Hh 的顏色直方圖和訓練視頻序列中所有圖像Hi 的直方圖。然後皮膚顏色概率是

Ps(c)=Hh(c)/Hi(c)(1)

其中c代表候選顏色。
  圖4(b)-(c)比較了[19]的膚色概率Ps(c) 和提出的訓練方法。與所提出的方法不同,[19]中的通用膚色模型由來自因特網的大量圖像訓練。圖4(b)-(c)表明,所提出的模型可以更好地將皮膚區域與其他對象分開。這僅僅是因爲[19]中的通用膚色模型是從大量圖像中訓練出來的,因此它將更多的顏色視爲皮膚(例如,B2,B3和B6)。然而,對於特定場景,膚色通常僅佔據顏色空間中的小區域。此外,通用膚色模型[19]在B4等黑暗環境中提供不滿意的皮膚檢測結果。可能是因爲這種類型的照明條件很少出現在其訓練數據集中。因此,[19]爲陰影(手上)分配了非常低的皮膚概率。所提出的手檢測器比[19]更健壯,主要是因爲針對每個單獨的場景訓練了特定的膚色模型。圖4(b)中的B5表明,所提方法的手概率在背景中相對較高,因爲其背景也具有快速運動物體,自適應GMM將它們視爲前景。然而,這個問題可以通過考慮來自所提出的立體聲的深度信息來解決,如圖4(e)(g)(h)所示。詳情將在以下小節中介紹。
image
圖4.提議的手部跟蹤框架的中間結果。

3.2 約束立體匹配

  傳統的立體匹配算法不會在要捕獲的場景上做出任何特定的假設。它在紋理/合成場景上表現良好,如圖4(d)的第一行所示。然而,在現實世界的室內環境中,其性能可能會急劇下降,其中大多數物體包含大的無紋理區域,如圖4(d)中的最後兩行所示。
  現有立體算法的性能取決於足夠的紋理。然而,手邊的區域對於立體匹配來說相對平滑。同時,手與背景之間的界限尚不清楚。這兩個因素都阻止了現有的立體匹配算法尋求準確的對應關係。另一方面,準確的手部分割對於手部跟蹤很重要。因此,所提出的立體算法僅需要保持(i)手的深度精度和(ii)手與背景物體之間的清晰深度差異。
  在這裏,我們提出了一種專爲手部追蹤而設計的立體聲匹配。由於視角,低紋理和照明變化,難以基於立體圖像對估計一些區域中的準確深度。我們將這些區域分類爲遮擋像素和不穩定像素。被遮擋的像素僅出現在立體對的一個視圖(左或右)中,就像手邊緣附近的背景部分一樣。使用左右一致性檢查來檢測這些像素。同時,基於匹配成本置信度檢測不穩定像素(由於缺乏紋理,鏡面反射等)[20]。
  在我們的算法中,我們將d表示爲深度/視差候選,在像素p處的新匹配成本Np 排除了遮擋的貢獻,計算如下:

Np(d)={0if p被遮擋Mp(d)其他(2)

其中Mp 表示來自Census變換的像素p處的原始匹配成本[21]。從第3.1節中提出的模型估計的皮膚概率Ps(c) 代替參考彩色圖像,用作新匹配成本的成本聚合的指導圖像,並且讓NpF 表示由過濾器引導的p處聚合成本[16]。如圖4(c)所示,大多數非皮膚區域非常暗,因此引導圖像濾波器內核在這些區域周圍非常大。因此,相應的彙總成本值在這些區域內非常穩定。設DpN 表示通過贏家通吃從NpF 獲得的深度。由於採用了大的濾芯,DpN 通常在非皮膚區域周圍過度平滑。然而,非皮膚區域的深度精度要求低。
  另外,DpN 是中間深度估計,但不是最終結果。它僅用於調整原始匹配成本:
Mp(d){α|dDpN|p被遮擋Mp(d)+β|dDpN|p不穩定Mp(d)其他(3)

Mp 是原始匹配成本,Mp 是調整後的成本。α和β是分別確定中間深度DpN 對被遮擋和其他不穩定像素的貢獻的兩個常數。
  還使用引導圖像濾波器對新的匹配成本進行濾波,其中參考顏色作爲計算圖4(e)中的最終深度/視差圖的指導。注意,圖4(d)中估計的大部分噪聲深度從圖4(e)中移除,儘管背景深度略微過於平滑。然而,手區域上的深度精度得到了很好的保留,因爲當對Np 執行成本聚合並且手區域內的像素大部分是穩定像素時,濾波器內核相對較小。
  雖然像Meshstereo[14]這樣的最先進的立體聲方法也可能在圖4(f)中產生“乾淨”的背景,但是它非常慢並且手區域周圍的性能明顯低於所提出的方法。

3.3 手分割

  在本文中,如果像素位於手區域內,如果其膚色概率Ps(c) 高並且其深度d接近前一幀中的手深度。在這種假設下,每個像素的手概率可以定義爲

Ph(c,d)=Ps(c)N(d;μd,σd)(4)

其中N(d;μd,σd) 是高斯分佈。平均μd 是前一幀中的平均手深度,並且在所有進行的實驗中標準偏差σd 固定爲150mm。最後,如果Ph(c,d)>0.1 ,我們假設像素在手區域內。
  一些具有差異的手部分割結果如圖4(h)所示。當背景高度紋理化(例如,B1)時,來自傳統立體聲的視差足夠準確。然而,由於缺乏紋理,在B6上應用傳統立體聲會導致背景中的許多視差噪聲。在第3.2節中提出的約束立體匹配算法可以在背景區域中獲得全局平滑(儘管可能不是非常準確)的視差估計,因此在手分割中非常有用。對於像B5這樣的特定背景,儘管經過訓練的膚色模型還不夠好,但仍然可以進行準確的手部分割藉助於所提出的立體匹配算法的視差估計來獲得。

4 實驗

  本節介紹使用所提出的被動立體聲系統和其他配置的手部跟蹤(PSO [17]和ICPPSO [3])的定量比較。在所有實驗中,我們將所提出的約束立體聲的超參數α和β設置爲2和0.5。實驗結果表明,所提出的立體聲可以實現與主動深度相機相當的跟蹤性能。在圖5中繪製了在不同環境中具有小於閾值的最大誤差的所有關節的平均百分比,包括簡單計數和難的隨機姿勢。綠色和紅色曲線來自提出的立體聲和英特爾F200主動深度相機。在所有圖中,它們彼此接近,這意味着無源立體聲適用於手勢跟蹤,其性能可與主動深度相機相媲美。爲了證明在所提出的立體聲中基於手建模的訓練和約束立體匹配的有效性,它們被通用GMM膚色模型[19](棕色曲線)和傳統立體聲(用於匹配成本計算的Census變換和成本聚合的引導圖像濾波器)所取代(黑色曲線)。根據圖5,跟蹤性能在不使用所提出的方法的情況下下降。請參閱補充材料以獲取視覺跟蹤結果。
image
圖5.在六種不同環境下最大誤差小於x mm的所有關節的平均百分比。

5 結論

  在本文中,我們開發了一個評估被動立體聲手姿態跟蹤的基準。與現有基準測試不同,它包含來自雙目立體相機的立體圖像和來自主動深度相機的深度圖像。它共有12個視頻序列,每個序列有1500幀。提出了一種專爲手部跟蹤而設計的基於立體的手部分割算法,用於估計精確的手部深度,並證明其性能可與不同場景下的主動深度相機相媲美。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章