《Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM》譯文

基於三維卷積神經網絡和卷積LSTM的多模式手勢識別

摘要

手勢識別旨在識別有意義的人體運動,並且在智能人機/機器人交互中是至關重要的。 在本文中,我們提出了一種基於三維卷積和卷積長短期記憶(LSTM)網絡的多模式手勢識別方法。 該方法首先通過三維卷積神經網絡學習手勢的短時空特徵,然後基於提取的短時空特徵,通過卷積LSTM網絡學習長時空特徵。 此外,多模式數據之間的微調進行了評估,我們發現當沒有預訓練模型時,它可以被認爲是一種防止過擬合的可選技巧。 我們對於所提出的方法在isoGD和SKIG數據集上進行驗證。 結果表明,我們提出的方法可以獲得最先進的識別精度(IsoGD驗證集爲51.02%,SKIG爲98.89%)。

關鍵字:三維卷積神經網絡;卷積LSTM;多模式;手勢識別

介紹

手勢作爲一種非言語身體語言,在人類日常生活中扮演着非常重要的角色。 毫無疑問,它將在計算機視覺應用中具有重要意義,如人機交互[44],手語識別和虛擬現實。 手勢識別旨在識別和理解人體的有意義的運動[5]。 有效的手勢識別仍然是一個非常具有挑戰性的問題[6],部分原因是文化差異,各種觀察環境,噪聲,圖像中手指相對較小的尺寸,詞彙外動作等。

在傳統的手勢識別中,主要使用手工特徵和常規機器學習方法,例如, 隱馬爾可夫模型,粒子濾波,有限狀態機和連接模型[5]。由於上述具有挑戰性的因素,手工製作的特徵不能完全滿足實際手勢識別系統的要求。 隨着深度學習理論的迅速發展[10],數據驅動方法在圖像分類[13],圖像分割[15],物體檢測[16],場景識別[18],人臉識別[19] ],人類行爲識別[20]和人類手勢識別[21]。

與基於圖像的應用程序不同,例如 圖像分類和場景標記,手勢識別通常基於視頻或骨架序列。 只有一小部分手勢可以從一張靜態圖像中識別出來。 因此,時間信息在手勢識別過程中起着關鍵作用。 背景可能是場景識別或動作識別的有效提示。 不幸的是,複雜的背景會給手勢識別帶來更多挑戰,因爲手勢更多地集中在手和手臂的運動上。 與整個場景相比,手和手臂的尺寸相對較小,因此手勢的有效空間特徵可能會在背景中被壓倒。 因此,時間信息比視頻分類更能區分手勢識別[20]。 同時學習時空特徵將爲手勢識別提供更多信息。

[22]中的雙流卷積網絡分別從RGB和疊加的光流圖像中提取空間和時間特徵。長期迴歸卷積網絡(LRCN)[23]首先從每幀中學習空間特徵,然後使用遞歸神經網絡(RNN)基於空間特徵序列學習時間特徵。 VideoLSTM [24]使用卷積LSTM網絡從先前提取的二維空間特徵中學習時空特徵。這三種代表性的方法分別或不同階段地學習時空特徵。在考慮各種背景的情況下,從視頻同時學習時空特徵對於手勢識別將更加有效。例如,三維ConvNets [36]利用三維卷積神經網絡(3-D CNN)直接學習時空特徵。儘管如此,LSTM / RNN更適合於學習長期的時間信息。因此,針對長期依賴的應用,利用3D CNN學習短時空特徵,通過RNN/LSTM學習長時空特徵將會更加合理。完全連接的特徵通常被用作LSTM [25]的輸入,但是將空間相關性信息保持在LSTM過程中可以學習更多信息性的時空特徵。所以,我們提出的方法中使用了卷積LSTM [26]。

本文提出了一種基於3D CNN和卷積LSTM的多模態手勢識別方法,如圖1所示。首先,利用3-D CNN從輸入視頻中提取短時空特徵。 然後利用卷積LSTM進一步學習長時空特徵。 最後,空間金字塔池(SPP)[40]被用來規範最終分類的時空特徵。 基於RGB和深度模態的網絡分別被訓練並且它們的預測被融合以獲得最終的預測結果

這篇文章主要貢獻如下:
1)針對孤立的手勢識別,最早提出基於3D CNN和卷積LSTM的方法
2)對多模式數據之間的微調進行評估,並將其視爲可選技巧,以防止在沒有預先訓練的模在時出現過擬合
3)IsoGD和SKIG數據集中展現較好的性能

本文的其餘部分組織如下:第II部分回顧了手勢識別的相關工作。 第三部分給出了該方法的細節。 第四部分介紹了實驗和討論。 最後,第五節給出了結論和未來的工作。

相關工作

在本節將會從兩個方面對手勢識別的相關工作做綜述:基於手工提取特徵的方法和基於神經網絡的方法。

基於人工提取特徵的方法

針對手勢識別,很多人工提取特徵的方法已經被提出。 Priyal和Bora [43]將手與前臂區域分開,通過手的幾何形狀對手勢旋轉進行歸一化,並基於歸一化的二元輪廓的Krawtchouk矩特徵對手勢進行分類。 Konecny和Hagara [27]使用動態時間扭曲(DTW)方法來識別基於定向梯度直方圖(HOG)和光流(HOF)直方圖的手勢。 Wu等人[28]從RGB和深度序列中提取擴展運動歷史圖像(Extended-MHI),並使用最大相關係數來識別手勢。 Lui [29]將手勢視頻描述爲Grassmann流形上的點,並採用最小二乘迴歸方法進行手勢識別。 Wan等人[30]首先提出3-D增強運動SIFT(3-D EMoSIFT)和3-D稀疏運動SIFT(3-D SMoSIFT)從RGB-D圖像中提取時空特徵,然後將3-D EMoSIFT和3-D SMoSIFT在視覺詞語袋(BoVW)模型下進行評估。最近,提出了稀疏關鍵點(MFSK)[31]從RGB-D中提取時空特徵,。基於這些手工特徵,線性判別分析(LDA),線性支持向量機(線性SVM),主成分分析(PCA),最近鄰(NN)分類器,DTW,樸素貝葉斯模型等被用來進行手勢識別[ 31]。

但是,手工功能不能同時考慮所有因素。 在2016年ChaLearn LAP大規模隔離手勢識別挑戰中,基於最先進的手工提取特徵的方法失敗[1]。 與此同時,基於神經網絡的方法已經在大規模和具有挑戰性的手勢數據集上表現出了顯着的性能[1],[32]。

基於神經網絡的方法

最近,深度神經網絡(DNN)被引入計算機視覺應用領域。基於卷積神經網絡(CNN)和RNN的方法已經已經在人類手勢識別/行爲識別中佔了統治地位[6], [32],[33]。 基於神經網絡的手勢識別方法的關鍵在於學習時空特徵。 最明顯的方法是連續學習空間和時間特徵。Pigou等人[34]探索了五種視頻中手勢識別的深層架構,並表明了這一點LRCN風格的網絡不是手勢識別的最佳選擇。他們還證明,雙向遞歸和時間卷積可以顯着提高幀明顯的手勢識別。另一個明顯的方法是將2-D CNN擴展到3-D CNN [35]。基於C3D [36]的網絡展示了2016年ChaLearn LAP大規模孤立手勢識別挑戰的最新性能表現[7],[12],[32]。 Li等人[12]分別將三維卷積(C3D)模型應用到RGB和深度數據上。朱等人[7]將金字塔形輸入和金字塔融合策略嵌入C3D模型中進行手勢識別。 Molchanov等人[25]提出循環三維卷積神經網絡,整合了3D CNN和RNN進行手勢識別。此外,基於雙流的網絡在人類行爲識別方面取得了顯着的成績[20]。Duan等人 在[33]中將卷積雙流共識投票網絡和深度顯着性ConvNet相結合來進行手勢識別。他們的方法在Chalearn IsoGD和RGBD-HuDaAct上獲得了最先進的性能數據集。此外,將視頻轉換爲2-D圖像也是一種很流行的方式,這可以最先進的基於圖像的卷積神經網絡構架用於基於視頻的應用。 Wang等人[4]構建動態深度圖像,動態深度正常圖像和動態深度運動正常圖像,然後在這些圖像上對VGG-16網絡[37]進行微調以進行手勢識別。(這裏的動態深度圖和動態深度正常圖不知道咋翻譯。總感覺有點不對勁)

通常,CNN+LSTM [23]或3D CNN+RNN [25]網絡使用完全連接的LSTM(FC-LSTM)。 FCLSTM在輸入到狀態和狀態輸入轉換中使用全連接,所以空間相關信息不被編碼。 Gavrila [38]提出了VideoLSTM,它直接在二維空間特徵上執行LSTM,但是VGG-16的二維卷積特徵不考慮到短期時間信息。 由於複雜背景下手的尺寸相對較小,缺乏時間信息可能會導致手的有效特徵不能很好地提取。 因此,同時學習時空特徵是手勢識別的更好選擇。 基於C3D的網絡[7],[12],[36]可以同時學習時空特徵,但LSTM / RNN更適合於長期的相關應用。 因此,卷積LSTM更適合學習長時空特徵。

所提出的方法

如圖1和2所示。 如圖1和圖2所示,所提出的深層架構由輸入預處理,三維CNN,卷積LSTM,空間金字塔池和多模態融合五部分組成。

輸入預處理

一般來說,手勢包含三個時間重疊的階段:準備,核心和撤回[38]。 不同的人可能以不同的速度執行手勢。 這兩個因素導致手勢序列可能具有不同的長度。 然而,幾乎所有的手勢識別神經網絡都要求輸入具有相同的大小。 因此,輸入的長度標準化是必要的。

一種方法是將每個手勢序列分成具有固定長度的剪輯,但是一個剪輯不能表示整個手勢。 另一種方法是將每個手勢序列下采樣到固定長度L中。第二種方法在所提出的方法中使用。 同時,採用時間抖動策略的均勻採樣來增強數據集。 具體來說,給定一個具有S個幀的手勢序列,採樣過程可以描述爲:

Idxi=SL(i+jit/2)(1)

其中Idxi是第i個採樣幀的索引,jit是從-1和1之間的均勻分佈採樣的隨機值。時間抖動可以增加數據集而不干擾每個採樣幀的時序序列手勢。 採樣結果可以表示爲

US=(idx1,idx2,idx3.....idxL)

3D CNN

C3D [36]是一種用於人體動作識別的代表性三維卷積神經網絡。所提出的深層架構中的3-D CNN組件是參照C3D模型設計的,如圖3所示。Batch normalization [39]也用於加速深度網絡訓練。Batch normalization 使我們能夠使用更高的學習速率,並且對初始化不太在意。在實驗中這項研究還表明,使用Batch normalization時,訓練將會有顯着的加速。每個Conv3D層的內核大小爲3×3×3,每個Conv3D層的步長和填充均爲1×1×1的大小。四個Conv3D層的濾波器計數分別爲64,128,256,256 。每個Conv3D圖層(除conv3a外)後面都有一個Batch normalization和一個ReLU圖層。 conv2之前的第一個匯聚層的內核大小爲1×2×2,步長爲1×2×2。這意味着在第一個Conv3D層上只執行空間匯聚。第二個池化層的內核大小爲2×2×2,步長爲2×2×2。這意味着時空池化在第二個Conv3D層上執行。這兩個匯聚層使得3-D CNN組件的輸出大小分別在空間大小和時間長度上縮小比例4和2。這意味着,如我們前面所述,三維CNN組件只能學習短時空特徵。

Convolutional LSTM

傳統的全連接方不需要考慮空間相關性。然而,卷積LSTM(convlstm)同時具有輸入狀態和狀態轉換的卷積結構,能夠將時空觀戲很好的建模[ 26 ]。
形式上,ConvLSTM的輸入X1,X2...Xt ,神經元狀態C1,C2,C3....Ct 和隱藏層狀態H1,H2,H3....Ht 都是三維張量,並且最後兩維是空間維度。並且規定o 爲矩陣乘積,所以ConvLSTM可以表示爲:

it=σ(WxiXt+WhiHt1+bi)(3)

ft=σ(WxfXt+WhfHt1+bf)(4)

ot=σ(WxoXt+WhoHt1+bo)(5)

Ct=ftoCt1+itotanh(WxcXt+WhcHt1+bc)(6)

ht=Ottanh(Ct)(7)

其中σ是sigmod函數,Wx〜和Wh〜是二維卷積核。

如圖2所示,在所提出的算法中部署了兩級ConvLSTM。 高級ConvLSTM層的最終輸出被當做每個手勢的最終長期時空特徵。 因此,最終時空特徵的時間長度將爲1.卷積核大小爲3×3,步長爲1×1。兩級ConvLSTM層的卷積濾波器計數分別爲256和384。 在我們實現的ConvLSTM的卷積過程中執行’Same-Padding”,因此ConvLSTM不同階段的時空特徵具有相同的空間大小。 具體而言,ConvLSTM的輸出具有與所提出的深層架構中的3-D CNN的輸出相同的空間大小。

Spatial Pyramid Pooling(空間金字塔池化)

由於3-D CNN僅在空間域上以小的4的比例縮小圖像,並且ConvLSTM組件不改變特徵圖的空間大小,所以最終的長時空特徵圖具有相對高的空間大小(例如, 由於3-D CNN的輸入大小爲112×112,因此在我們的實現中爲28×28)。 空間金字塔池[40]插入ConvLSTM和全連接(FC)層以降低維度; 這樣最終的FC層可以擁有更少的參數。 空間金字塔池化作爲Bag-of-Words模型的擴展,是計算機視覺中最成功的方法之一。 它可以彙集多層次的特徵,並可以從任意大小的圖像生成表示。

如圖4所示,在所提出的深層架構中,對每個特徵地圖執行四級空間金字塔池化。 ConvLSTM的最終長時空特徵地圖的空間尺寸爲28×28 =784,SPP層後各特徵地圖的尺寸爲49 +16+4 +1=70.除了維數降低之外,SPP提取的多尺度特徵也可以在一定程度上提高識別精度。

Multimodal Fusion(多模式融合)

多模態融合一般可以分爲兩類:早期多模態融合和晚期多模態融合[14]。 早期多模態融合綜合了多模式網絡輸入前的數據。 這種方法可能存在問題,因爲由於它們可能未經調整且不具有一致的特徵,某些多模式數據不能直接融合。 晚期多模式融合在網絡晚期整合了多模態數據。 這種方法可以分別根據數據的特徵來訓練不同的網絡。 在提出中方法,採用後期多模態融合,並通過平均值融合不同網絡的預測得到最終的預測分數。

Experiment(實驗)

在本節中,所提出的方法將在兩個公共數據集上進行系統評估:ChaLearn LAP 的IsoGD[1]和Shefield Kinect手勢數據集[2中進行。 首先簡要介紹這兩個數據集。 然後,將詳細描述培訓流程。 最後,評估結果將分別報告

數據集介紹

略過,論文比較清楚

訓練

提出的網絡2是基於Tensorflow和Tensorlayer平臺實現的。 沒有預先訓練的模型與提出的深層架構兼容,因此網絡從零開始進行培訓。 Batch normalization使訓練過程變得更加簡單快捷。 因此,使用更高的學習率並且需要更少的時間。 我們首先從零開始對IsoGD數據集進行網絡訓練。初始學習率設置爲0.1,並且每15,000次迭代降至1/10。 重量衰減初始化爲0.004,並在40,000次迭代後減小至0.00004。 對於IsoGD的培訓,最多需要60,000次迭代。然後,基於IsoGD的預訓練模型,網絡針對SKIG進行了微調。 SKIG的初始學習率爲0.01,每5000次迭代降至1/10。 在整個微調過程中,重量衰減設置爲0.00004。 SKIG上的微調最多需要10,000次迭代。

對於IsoGD和SKIG,批量大小爲13,每個剪輯的時間長度爲32幀,每個圖像的裁剪大小爲112.一個NVIDIA TITAN X GPU用於訓練每個網絡。 使用第III-A部分所述的具有時間抖動的均勻採樣進行訓練。 只有統一的採樣才能用於測試,以保持測試的準確性。 基於RGB和深度模態的網絡分別進行訓練

由於在我們的訓練中沒有使用其他數據集的預訓練模型,因此在實驗中評估了IsoGD的跨模態微調策略。 我們基於預先訓練的深度模式模型對基於RGB的神經網絡進行微調,反之亦然。 在對IsoGD進行訓練時,使用幾種不同的訓練策略來評估所提出的方法:

策略1:在3-D CNN組件的頂部添加一個額外的3-D池層(2×2×2核和2×2×2步),以評估影響 ConvLSTM的空間大小。 在這種情況下,最終時空特徵地圖的空間大小是14×14,因此僅利用3級空間金字塔池(即,分箱的數量分別是1,4,16)

策略2:分別在IsoGD上從頭開始基於RGB和深度圖像進行訓練。

策略3:基於針對IsoGD的深度模式的預先訓練的模型微調基於RGB的神經網絡,反之亦然。

Discussion(討論)

一般來說,當對象可供性[42]不涉及手勢時,背景對手勢識別的信息量較小。 在這種情況下,複雜的背景會對有效的手勢識別帶來負面影響。 因此,學習時空特徵同時成爲有效手勢識別方法的關鍵。 三維卷積神經網絡針對時空特徵提取進行了很好的設計,而LSTM網絡更適合於可變長度時間信息融合。 因此,3-D CNN和卷積LSTM的集成可能是用於魯棒手勢識別的優秀框架。

對預先訓練的模型進行微調是防止相對較小數據集過度擬合的一項重要技能,對預先訓練的模型進行微調的本質是涉及更多的訓練數據。 手勢的多模態數據被捕獲不同的方式,從不同的角度表現不同的手勢特徵。 因此,多模態也可以被看作是一種特殊的數據增強方法。 跨模態微調也可以被認爲是防止過度擬合的另一種實用技巧。

根據IsoGD的識別結果,對於所提出的方法,某些類型的手勢很難識別。 1)所提出的方法不會將手的區域與整個場景分開,並且隨機下采樣策略在輸入的長度標準化之後會丟失一些有效的快速和微小運動的運動信息,因此手部快速和微小運動的手勢難以識別。 2)當大多數幀僅包含無意義的靜態手勢時,均勻下采樣不能保留所有關鍵運動信息,因此這種手勢也難以識別。 3)在實驗中不能很好地識別具有可怕照明的手勢序列。 4)非常類似的手勢也很難區分。如果可以同時學習全局和局部特徵,則多尺度特徵可以提高手勢的快速和微小移動的識別準確性。根據運動的有效性進行下采樣或標準化可以是爲手勢識別保留有用的運動信息的可選技能。動態遞歸神經網絡可能是學習有效的時空特徵的更好選擇,所述手勢具有各種長度和隨機執行時間和速度。

結論

在本文中,我們提出了一種基於三維卷積神經網絡和卷積長短期記憶(LSTM)網絡的多模式手勢識別方法。評估結果表明,同時學習時空特徵比連續或單獨學習手勢識別的空間和時間特徵更合適。時空特徵對於複雜的手勢背景更加健壯。三維卷積神經網絡是學習短時空特徵的好選擇,而卷積LSTM網絡是長時空學習的較好選擇。將來,我們將嘗試通過用卷積網絡替換所提出的深層架構的空間金字塔池層來學習每個手勢的一個時空特徵地圖所表示的動態圖像。手勢總是有各種各樣的長度,所以動態遞歸神經網絡可用於我們未來作品中的連續手勢識別。

參考文獻

空間金字塔池化

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章