首次基於神經架構搜索自動生成圖卷積結構,刷新人體動作識別準確率 | AAAI 2020

由圖卷積網絡(GCN)推動的基於骨骼數據的人體動作識別由於其非歐氏結構數據具有強大的建模能力而備受關注。然而,許多現有的GCN方法都提供了預定義的圖結構,這可能會丟失隱式的聯合相關性。因此,探索更好的GCN架構則成爲了亟需解決的問題。爲了解決這些問題,本文的作者使用了神經結構搜索(NAS)的思路,提出了第一個可自動化設計的GCN,該模型可用於基於骨骼數據的行爲識別。在充分研究節點之間的時空相關性之後,作者通過提供多個動態圖模塊來豐富搜索空間。此外,作者引入了多跳模塊,希望突破一階逼近對錶示能力的限制。相關論文已被AAAI20接收。本文是AI前線第100篇論文導讀,我們將詳細介紹這一搜索方法。

背景介紹

行爲識別是一個很有價值且具有挑戰性的研究課題,具有廣泛的潛在應用,例如安全監控、人機交互和自動駕駛。如今,作爲表觀數據和深度數據的替代方法,骨骼數據已廣泛用於動作識別中。一個重要的原因是骨骼數據傳達的是人體運動的緊湊信息,因此它對於視點變化,遮擋物和自我遮擋等複雜環境具有魯棒性。已有的工作將骨架數據重組爲一種網格形狀的結構,從而可以實現傳統的遞歸神經網絡(RNN)和卷積神經網絡(CNN)。儘管在動作識別方面已經看到了實質性的改進,但是由於骨架數據位於非歐幾里德幾何空間中,因此無法充分受益於深度學習的出色表示能力。

目前,圖卷積網絡(GCN)已被引入基於骨骼的動作識別中,並取得了顯著的進展。但是,大多數GCN方法都是基於具有固定拓撲約束的預定義圖,該圖會忽略隱式聯合相關性。 部分工作使用了基於節點相似性的自適應圖來替換固定圖。但是,它提供了整個網絡的共享機制,並且幾乎沒有討論時空相關性。我們認爲不同的層包含不同的語義信息,因此應使用特定於層的機制來構造動態圖。此外,主流GCN傾向於採用一階Chebyshev多項式近似以減少計算開銷,由於沒有考慮到高階連接,因此其表徵能力受到限制。最新的一些研究成果引入了高階近似,以使GCN的感受野更大。但是這些工作都沒有考慮到每個分量在近似中的貢獻不同。顯然,爲不同的任務設計這種不同的功能模塊的工作量是很大的,並且需要大量的調整和測試。

爲了解決這個問題,本文着重於減少圖卷積結構設計過程中的人工操作。作者通過自動神經結構搜索(NAS),用動態結構取代了固定圖結構,並探索了不同的圖以及不同語義級別的生成機制。 NAS的目的是在合理的計算預算下,以更少的人力資源或純粹在沒有人工幫助的情況下獲得高級神經網絡結構。但是,將NAS應用於GCN並非易事。像骨架這樣的圖形數據沒有卷積運算所需的位置和順序信息,而當前的NAS方法專注於神經運算的設計。此外,由於GCN本身是一個較新的研究領域,所以現有的運算操作非常有限,例如,GCN甚至沒有通用的池化運算。因此,作者嘗試在由多個圖形功能模塊構建的GCN空間中進行搜索。

此外,作者使用一種高樣本效率的深度神經進化策略(ES),以通過估計架構分佈來探索最佳的GCN結構。它可以在連續和離散搜索空間中進行。因此,可以在每次迭代時激活一個功能模塊,以節省內存的方式進行搜索。藉助用於GCN的NAS,模型可以自動構建圖卷積網絡以從骨骼數據中識別動作。爲了評估所提出的方法,作者在兩個大型數據集NTU RGB+D和Kinetcis-Skeleton上進行了綜合實驗。結果表明,本文提出的模型對主題和視圖變化具有魯棒性,並實現了目前最佳的性能。

本文的貢獻點主要可以歸納爲:

  1. 打破了GCN由固定圖導致的侷限性,作者首次提出了基於NAS的圖卷積結構,該結構可用於基於骨骼的行爲識別。

  2. 作者從以下兩個方面豐富了GCN的搜索空間。首先,在各種時空圖模塊的基礎上提供了多個動態圖子結構。其次,通過使用Chebyshev多項式逼近建立更高階的連接來擴大GCN卷積的感受野。

  3. 爲了提高搜索效率,設計了一種最新的基於進化的NAS搜索策略,該策略具有高效的採樣和儲存效率。

方法

這一部分將詳細介紹基於搜索的GCN,首先我們將簡要介紹一下如何使用GCN建模空間圖。

image

image

搜索圖卷積網絡

作者將骨骼數據中的人類動作識別問題視爲一系列圖G = {G_1,G_2,…,G_T}的圖分類任務。每個圖的節點和邊分別表示骨骼結構的連接點和骨幹。然後,可以將該任務構造爲圖數據上的監督學習問題,其目的是使用GCN學習G的魯棒表示,從而更好地預測動作類別。爲此,作者使用神經結構搜索來構建此GCN,該GCN將自動爲不同語義級別的層組裝圖生成模塊。

GCN搜索空間

在NAS中,神經搜索空間決定了構建神經網絡需要採取哪些神經運算以及如何進行神經運算。作者在由多個GCN模塊構建的空間中進行搜索,以探索不同表示級別的動態圖的最佳模塊組合。作者提出的GCN塊也是一個時空塊,它不提供預定義的圖,而是根據不同功能模塊捕獲的節點相關性來生成動態圖。主要有兩種相關性被捕獲以構建動態圖。

image

圖1:搜索空間示意圖。 這裏Ⓧ表示矩陣乘法。 ⊕是逐元素求和。有八個用於生成圖形的功能模塊。 每個模塊的貢獻都作爲結構參數被考慮。在動態圖的求和操作之前還有一個softmax函數。

結構表示相關性

作者基於空間節點連接計算了結構相關性。 爲了確定兩個節點之間的連接強度,作者將歸一化的高斯函數應用於圖節點,相似度得分作爲相關性。 即:

image

該模塊在圖1中被命名爲“Spatial m”。在這裏,我們根據節點i和節點j的對應表示h(x_i)和h(x_j)計算相關性分數A_D(i,j)。Ⓧ代表矩陣乘法, Φ和Ψ是兩個投影函數,在圖1中稱爲conv_s,可以通過通道級的卷積濾波器實現。以這種方式可以捕獲節點間的相似性以構建動態圖。

時間表示相關性

結構相關性包含圖拓撲結構的最直觀線索。但是,忽略時間相關性可能會丟失隱式聯合相關性。我們以NTU RGB + D數據集爲例。沒有時間信息,很難說一個人要觸摸他的頭或只是揮手。從物理結構的角度來看,在觸摸頭的動作過程中,頭節點和手節點之間的連接很少。但是在此操作中,它們之間應該存在關聯。考慮時間信息將使這種識別操作變得更加容易。因此,作者引入兩個時間卷積來提取每個節點的時間信息,然後再用等式(7)計算節點相關性。這樣,當計算節點連接時,就會涉及到相鄰幀之間的節點交互。注意,此處的時間表示相關性與時間注意力機制不同,後者將較高的權重賦予相對重要的幀。相反,這裏捕獲時間信息以更好地生成空間圖。爲此,我們還引入了高斯函數,如等式(7)中所示,以計算節點相關性。函數 Φ和Ψ由時間卷積實現,在圖1中稱爲conv t,此模塊稱爲“ Temporal m”。

在圖一中,作者使用不同的階數和層數構建了Chebyshev多項式函數,讓網絡自己決定每一層所需的階數,其中最大階數爲4,因此在圖一中共有8個模塊(4*(Temporal m+Spatial m))。通過圖1中所示的八個模塊,可以搜索最佳的神經結構。先前的NAS方法通過搜索單個模塊來減少計算負擔。但是,作者認爲不同的特徵層包含不同級別的語義內容,首選使用特定層的機制來構建圖。因此,作者搜索了整個GCN網絡,而不是一個單獨的塊。爲了提高效率,作者還提出了高計算效率和存儲效率的搜索策略。

爲了提高採樣效率的算法全稱爲Cross-Entropy with Importance-Mixing,該算法通過估測結構分佈來探索一個最優的結構,因此它不受限於必須在可微空間優化。CEIM的算法流程如下表所示:

image

作者通過在每次搜索步驟中只激活一個功能模塊的方式來提高儲存效率。即對於輸出image,它可以是一個被激活的模塊的單輸出。

image

實驗

爲了評估模型的性能,作者在兩個大型骨架數據集NTU RGB+D和Kenitics-Skeleton行爲識別任務的測試。作者使用了PyTorch來實現文中的方法,代碼將在論文正式出版後發佈。爲了與當前最先進的GCN方法保持一致,作者在網絡中引入了十個GCN塊用於搜索和訓練步驟。它們中的每一個都基於圖1中的塊。像以前的工作一樣,每個塊後面都有一個時間卷積,其內核大小爲9*1以捕獲時間信息。第一個GCN塊將圖投影到通道數爲64的特徵空間中。作者還將Resnet機制應用於每個GCN塊。最終,將提取的特徵輸入一個全連接層中以進行最終預測。

實現細節

對於每個GCN塊,空間模塊conv_s是通道級的卷積濾波器,時間模塊conv_t是沿時間維度執行內核尺寸9 _1的卷積濾波器。在搜索過程中,作者對NTU RGB+D 聯合數據進行了實驗,以找到最佳架構。我們爲所有上述數據集共享相同的結構,以與當前的最新方法保持一致。對於訓練過程,作者使用Nesterov動量(0.9)的隨機梯度下降(SGD)作爲網絡的優化算法。選擇交叉熵損失作爲識別任務的損失函數。對於搜索和訓練,權重衰減分別設置爲0.0001和0.0006。對於NTU RGB+D數據集,該數據集的每個樣本中最多有兩個人。如果樣本中的主體數量少於2,則將第二主體填充爲0。每個樣本中的最大幀數爲300。對於少於300幀的樣本,作者採用重複採樣的方式直到其達到300幀。學習率設置爲0.1,並在第30、45和60次迭代時除以10。培訓過程在第70次迭代時結束。

消融實驗

在這一部分,作者與六個基準模型進行了比較進行比較,這六個基準具有不同的機制來構建動態圖。具體來說,用於生成圖的模塊基於:1)結構表示相關性;2)時間表示相關性; 3)時空表示相關性; 4)具有四階Chebyshev逼近的時間相關性; 5)具有4階Chebyshev逼近的時空表示相關性;6)合併所有上述模塊。對於這六個方法,相同的塊在整個網絡結構中是共享的。相反,本文提出的搜索方法探索了適用於不同層的最佳模塊。比較結果列在表2中。它表明時間信息確實對GCN(Ours(T)和Ours(ST))有所幫助,並且全部使用所有模塊時並不能確保更好的性能(Ours(S + T + ST + Cheb))。此外,高階情況的考慮也有助於GCN(Ours(+ Cheb))。基於NAS的GCN(Ours(NAS))的優越性能證明了本文提出的方法的有效性。與第一行顯示的當前最佳結果相比,本文提出的方法在關鍵點,骨幹以及聯合情況上的準確性分別提高了0.9%,1.5%和0.6%。這驗證了本文提出的SGCN方法的有效性。

image

與SOTA方法的比較

爲了評估最終搜索到的模型的性能,作者比較了14種目前最好的基於骨骼數據的行人識別方法,在NTU RGD+D數據庫上的實驗結果如表三所示:

image

在Kinetics數據庫上的結果如表四所示:

image

論文原文鏈接:

https://arxiv.org/pdf/1911.04131.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章