【論文翻譯】An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

基於骨架的注意增強圖卷積LSTM網絡 

0摘要:

基於骨架的動作識別是一種重要的任務,需要對給定骨架序列的人體動作的運動特性進行充分的理解, 最近的研究表明,探索骨骼序列的空間和時間特徵是這項任務的關鍵。然而,如何有效地提取區分性的時空特徵呢?模型仍然是一個具有挑戰性的問題。本文提出了一種新的基於骨架數據的注意增強圖卷積LSTM網絡(AGC-LSTM)。該方法不僅可以捕捉空間形態和時間動態上的判別特徵,而且還可以研究時空域之間的共現關係。我們還提出了一種時態層次結構,以增加頂級agc-lstm層的時態接受字段,從而增強了學習高級語義表示和sig的能力。大大降低了計算成本。此外,爲了選擇區分空間信息,採用關注機制來增強每個AGC-LSTM層中的關鍵關節的信息。給出了兩組數據集的實驗結果:NTU RGB D數據集和西北UCLA數據集.比較結果表明了該方法的有效性,並證明了該方法的有效性。t對這兩個數據集執行現有技術的方法。

 

圖1.一個AGC-LSTM層的結構.與傳統的LSTM不同,AGCLSTM中的圖卷積算子使AGCLSTM的輸入、隱藏狀態和單元記憶成爲圖形。結構化數據。

 1.介紹

在計算機視覺中,人的行爲識別起着至關重要的作用。目的是從視頻中刪除動作類,此外,由於其廣泛的潛在應用,如視頻監控、人機交互、運動分析等,已經研究了幾十年,至今仍很受歡迎。17, 33, 1].

行動識別是計算機視覺界具有挑戰性的任務。基於RGB視頻和3D骨架數據的人類動作識別有多種嘗試。基於RGB視頻的動作R認知方法[23,32,25]主要是從RGB幀和時態光流中模擬空間和時間表示。儘管基於rgb視頻的方法已經取得了有希望的結果。但仍然存在一些侷限性,如背景雜波、光照變化、外觀變化等。三維骨架數據用一組三維座標表示身體結構。關鍵節點的ONS。骨架序列不包含顏色信息,不受RGB視頻的限制。

這種魯棒的表示法允許模擬更有區別的節奏-arxiv:1902.09130v1[cs.CV],2019年2月25日人類行爲的特徵。此外,Johansson等人。[8]給出了關鍵關節能提供高效人體運動信息的經驗和理論基礎。此外,Microsoft Kinect[37]和AdvanCED人體姿態估計算法[2]使得獲取骨架數據變得更加容易。對於基於骨架的動作識別,現有的方法探索不同的模型來學習骨架序列的時空特徵。宋等人[24]採用時空注意力。基於LSTM的區分時空特徵選擇模型。在[3,13,9]中,卷積神經網絡(CNNs)被用來從骨骼中學習時空特徵。Yan等人[35]提出了一種用於行動識別的空間-時間圖卷積網絡(ST-GCN)。與ST-GCN[35]相比較,Si等[21]提出了利用圖神經網絡和LSTM的方法。分別表示空間和時間信息。總之,所有這些方法都試圖設計一個有效的模型來識別骨架序列的時空特徵。然而,如何有效地提取區分時空特徵仍然是一個具有挑戰性的問題。

一般來說,人類骨骼序列有三個顯著的特徵:1)每個節點與其相鄰節點之間具有很強的相關性,使得骨架中含有豐富的骨架。身體結構信息。(2)時間連續性不僅存在於同一關節(如手、腕、肘),而且還存在於身體結構中。3)兩者之間存在着一種共現關係。時空域本文提出了一種用於基於骨架的動作識別的新的通用框架--注意增強圖卷積lstm網絡(Agc-lstm)。通過同步學習上述時空特性來改進骨架表示。

圖2中示出了所提出的AGC-LSTM網絡的體系結構。首先,將每個關節的座標變換成具有線性層的空間特徵。然後我們將空間Featu連接起來兩個連續幀之間的Re和FeatureDifference構成一個增廣的特徵。爲了消除這兩個特徵之間的尺度差異,採用了共享的LSTM來處理每個聯合Sequen。切斯。接下來,我們使用三個AGC-LSTM層來建模時空特徵.如圖1所示,由於agc-lstm中的圖卷積算子,它不僅可以有效地捕獲鑑別。空間形態和時間動態的特徵,同時也探討了時空域的共現關係。特別是利用注意機制在每個時間步長上增強關鍵節點的特徵,從而促進AGC-LSTM學習更多的鑑別特徵。例如,特性“肘”、“手腕”和“手”是動作“握手”的重要組成部分,在識別行爲時應加強。特別是利用注意機制在每個時間步長上增強關鍵節點的特徵,從而促進AGC-LSTM學習更多的鑑別特徵。例如,特性“肘”、“手腕”和“手”是動作“握手”的重要組成部分,在識別行爲時應加強。雖然基於關節的模型獲得了最新的結果,但我們也探索了該模型在零件級的性能。對於基於零件的模型,接頭的連接每個部分充當構造圖的節點。此外,基於聯合和部分的雙流模型還可以進一步提高性能。

這項工作的主要貢獻總結如下:

  • 提出了一種用於基於骨架的動作識別的新的通用AGC-LSTM網絡,這是用於該任務的圖形卷積LSTM的第一次嘗試
  • 提出的AGC-LSTM能夠有效地捕獲具有鑑別性的時空特徵.更特別的是,注意機制被用來增強關鍵節點的特性,這有助於改善時空表達。 
  • 提出了一種時態層次結構,提高了學習高級時空語義特徵的能力,大大降低了計算量。
  • 所提出的模型實現了NTURGB+D數據集和NorthwestUCLA數據集的最新結果。我們進行了廣泛的實驗以證明我們的模型的有效性。

2.相關工作 

圖神經網絡

最近,基於圖的模型由於對圖結構數據的有效表示而引起了人們的廣泛關注[34]。現有的圖形模型主要分爲兩種體系結構。一層框架稱爲圖神經網絡(GNN),是圖和遞歸神經網絡的結合。通過消息傳遞和節點狀態更新的多次迭代,每個節點捕獲鄰居節點內的發射關係和結構信息。齊等人[18]應用GNN處理在圖像和視頻中檢測和識別人類-對象交互作用的任務。Li等人[14]利用GNN來建模角色和PRD之間的依賴關係表示一致的結構化輸出,用於態勢識別。另一個框架是圖卷積將卷積神經網絡推廣到圖的網絡(GCN),GCNS有兩種類型:光譜GCNS和空間GCNS。譜GCNS變換圖信號在譜域上,然後在譜域上應用譜濾波器。例如,CNN依賴於圖Laplacian[5,6]在譜域中使用。Kipf等人[11]引入譜GCNS對圖結構數據進行半監督分類。對於空間GCNS,採用卷積運算,利用其鄰域信息爲每個節點計算一個新的特徵向量。Simonovsky等人[22]對在空間域中執行的圖形信號,提出一種類似卷積的運算,並且是第一個將圖卷積應用於點雲分類的運算。爲了tO捕捉圖序列的時空特徵,在[19]中首次提出了一種圖卷積LSTM,它是GCNS的擴展,具有遞歸結構。受[19]啓發,我們利用新的AGC-LSTM網絡從骨架序列中學習固有時空表示。

圖2.建議的注意增強圖卷積LSTM網絡(AGC-LSTM)的體系結構。特徵增強(FA)用位置特徵和級聯計算特徵差異。ES的位置特徵和特徵差異。LSTM用於消除特徵差異與位置特徵之間的尺度差異。三層agc-lstm層可以建立判別空間溫度模型。Al特徵。時間平均彙總是在時間域中的平均彙集的實現。我們使用來自最後一個AGC的所有關節的全局特徵和聚焦關節的局部特徵-LSTM層預測人類行爲的類別。

 基於骨架的動作識別

由於運動動力學的有效表示,基於骨架數據的人體動作識別得到了大量的關注。傳統的基於骨架的動作識別方法主要關於手工設計功能的焦點[26,29,7]。Vmatapalli等人[27]使用不同身體部位之間的相對三維旋轉來表示每具骨骼。所有pa之間的相對三維幾何在[26]中,人體各部位的IRS被用來表示人體的三維骨骼。

最近的工作主要是通過深度學習網絡來學習人類的行爲表徵。Du等人[4]根據人體的物理結構,將人體骨架分爲五部分,然後分別進行。將它們送入分級遞歸神經網絡來識別動作。在[24]中,時空注意力網絡學會選擇性地聚焦於區分性的空間和時間特徵。張等人[36]提出了骨架序列的視圖自適應模型。本身就能將觀察觀點調整到合適的觀點。...在[35,13,21]中的工作進一步表明學習區分的空間和時間特徵是人類行動識別的關鍵要素。在[13]到l中提出了一個分層的CNN模型。獲取聯合發生和時間演化的表示。文中提出了一種用於動作識別的時空圖卷積網絡(ST-GCN).每個時空圖c卷積層用圖卷積算子構造空間特徵,用卷積算子對時間動態進行建模。與St-GCN[35]、Si等人作了比較。[21]應用圖神經網絡捕捉空間結構信息,然後利用LSTM對時間動力學進行建模。儘管表現不佳在[21]中,它忽略了時空特徵的共現關係.本文提出了一種新的注意力增強圖卷積LSTM網絡。Y有效地提取了區分時空的特徵,同時也探索了時空域之間的共現關係。

3.模型結構

 在這一部分中,我們首先簡要回顧了圖卷積神經網絡,然後介紹了我們關注的增強圖卷積LSTM。最後,我們給出了所提出的adc-lstm網絡的體系結構。

3.1. 圖卷積神經網絡

圖卷積神經網絡(GCN)是圖形結構化數據的學習表示的通用和有效的框架。各種GCN變體在許多任務上都取得了最先進的成果.基於骨骼的動作識別,,設表示單個幀在時間t上的骨架圖,其中是N個節點的集合,是骨架邊的集合。節點的鄰居集合被定義爲,這裏的爲從的最小路徑,圖標記函數被設計爲將標籤{1,2,...,k}分配給每個圖形節點,其可以將節點的鄰居集合劃分爲一個固定數目的K子集。圖卷積通常被計算爲:

其中是節點的特徵。w(·)是一種權重函數,其從k權重分配由標籤索引的權重。 是相應子集的數目,它將特徵表示規範化。 表示圖在節點VTI處的卷積輸出。更具體地說,使用鄰接矩陣,Eqn。1可表示爲:

其中是標號k∈{1,2,…,K}的空間構型中的鄰接矩陣。是一個度矩陣。

3.2.注意增強圖卷積LSTM

對於序列建模,大量的研究表明,LSTM作爲RNN的一個變體,具有驚人的建模長期時間依賴的能力。各種基於lstm的模型被用於le。骨架序列的ARN時間動力學。然而,由於LSTM內的完全連接的算子,存在忽略基於骨架的動作識別的空間相關性的限制。與lstm相比,agc-lstm不僅可以捕捉空間形態和時間動態上的判別特徵,而且可以探索時空共生關係。範圍( domain的名詞複數 )。

和LSTM一樣,AGC-LSTM還包含三個門:輸入門it、忘記門ft、輸出門ot.然而,這些門是用圖卷積算子得到的。輸入XT,隱藏狀態ht和adc-lstm的細胞記憶ct是圖形結構的數據。圖3展示了AGC-LSTM裝置的結構 ,由於AGC-LSTM中的圖形卷積算子,細胞記憶CT和隱藏狀態Ht不僅具有時間動力學特性,而且還包含了空間結構信息。AG的功能C-LSTM單位的定義如下:

其中,表示圖卷積算子,表示Hadamard乘積。是sigmoid激活函數.是調製輸入。是一種中間隱藏狀態。我們用是指的一個圖卷積,可以寫成Eqn.1。是一個能夠選擇關鍵節點識別信息的注意力網絡。之和由於輸出的目的是在不削弱非聚焦節點信息的情況下增強關鍵節點的信息,從而保持空間信息的完整性。

將注意力網絡應用於關鍵關節的自適應聚焦,建立了一種能自動測量關節重要性的軟注意機制。空間注意網絡的圖示如圖4所示。AGC-LSTM的中間隱藏狀態包含豐富的空間結構信息和時間動力學信息。Al在導向鍵接頭選擇中的應用,所以我們首先將所有節點的信息聚合爲查詢功能:

圖4.空間注意力網絡圖解 

其中W是可學習的參數矩陣。然後,所有節點的注意力分數可以計算爲:

其中是可學習的參數矩陣。是偏置,由於存在多個關鍵節點的可能性,我們使用了Sigmoid的非線性函數.節點的隱態也可以表示爲。注意增強的隱藏狀態將被輸入到下一個AGCLSTM層。請注意,在最後一個AGC-LSTM層,所有節點功能的聚合將作爲一個全局特性並且焦點節點的加權和將作爲一個局部特徵。

 

利用全局特徵和局部特徵來預測人類行爲的類別。 

3.3.AGC-LSTM網絡

提出了一種基於骨架的端到端注意增強圖卷積LSTM網絡(AGC-LSTM).圖2顯示了我們模型的整體流水線。在下面我們會詳細討論建議的架構背後的理據。

關節特徵表示。

對於骨架序列,首先利用線性層和LSTM層將每個關節的三維座標映射到高維特徵空間中。第一線性層將節點座標編碼成一個256個模糊矢量作爲位置特徵:表示關節I的位置表示。 由於只包含位置信息,使得位置特徵PTI有利於學習圖形模型中的空間結構特徵。幀間差分特徵Ecutive幀可以幫助獲取AGCLSTM的動態信息。爲了兼顧這兩方面的優勢,將這兩個特性連接起來作爲一個增強的特性來豐富特徵信息。然而,位置特徵PTI和幀差特徵VTI的級聯存在特徵矢量的比例方差。因此,我們採用LSTM層來消除這兩個特性之間的尺度差異:

其中是節點i在時間t處的增廣特徵,注意線性層和LSTM在不同的節點之間是共享的。

時態層次結構

LSTM層之後,增強特徵的序列將被饋送到下面的GC-LSTM層中作爲節點特徵,其中 。該模型將三層AGC-LSTM層疊加起來,以瞭解AGC-LSTM的空間結構和時間動態.在cnn空間池的啓發下,我們提出了一種Agc-L的時間層次結構。STM在時域具有平均池,以增加頂層AGC-LSTM層的時間感受場。通過時態層次結構,在AGCLSTM頂層的每次輸入的時態接受域將成爲來自幀的短期剪輯,這將對per更敏感。時間動態的感覺。此外,在提高性能的前提下,可以顯著降低計算量。

學習AGC-LSTM

最後,將每個時間步長的全局特徵和局部特徵轉化爲C類的,其中ot=。然後,將預測的概率作爲第類得到如下:

 

在訓練過程中,考慮到在AGC-LSTM頂部的每個時間步長的隱藏狀態包含一個短期動態,我們對我們的模型進行了監督,損失如下:

 

圖5.基於聯接和部件的混合模型的說明。

其中是地面真實標籤。表示第j個AGC-LSTM層的時間步長數。第三個術語的目的是對不同的關節給予同等的注意。最後期限是限制感興趣節點的數量。λ和β是重量衰減係數。請注意,僅在最後一步使用的和概率來預測人類行爲的類別。 

雖然基於AGC-LSTM的聯合網絡已經取得了最新的研究成果,但我們也從零件層面探討了該模型的性能。根據人類的物理結構E體可分爲幾個部分。類似於基於聯合的AGC-LSTM網絡,我們首先捕獲一個線性層和一個共享LSTM層的部分特徵.然後將部分特徵作爲節點表示輸入到三個agc-lstm層中。結果表明,該模型在零件級上也能取得較好的性能。此外,基於關節和零件的混合模型(如圖5所示)可以導致進一步的性能改進。

4.實驗

我們已經對我們提出的兩個數據集的模型進行了評估:NutRGB+D數據集[20]和西北-UCLA數據集[31]。實驗結果分析證實了該模型在基於骨架的動作識別中的有效性。

4.1.數據集

NTURGB+D數據集

該數據集包含60種不同的人類活動類別,分爲三個主要羣體:日常行動、相互行動和與健康有關的行動。總共有56880個動作樣本HICH由40名不同的受試者進行。每個動作示例包含RGB視頻、深度地圖序列、3D骨架數據和由三個MicrosoftKinect v2攝像機同時捕獲的紅外視頻。我們所關注的三維骨骼數據包括每幀25個身體關節的三維位置。該數據集有兩種評估協議:交叉對象(CS)和交叉視圖(CV)[20]。在CrossSubject方案下,由20名受試者執行的操作構成培訓集,其餘20名受試者執行的其他操作用於測試。用於交叉視圖評估N、由前兩個攝像機拍攝的樣本用於訓練,其餘則用於測試。

Northwestern-UCLA dataset
此數據集包含涉及10個類別的1494個視頻剪輯。它是由三個Kinect相機同時從不同的角度拍攝。每個動作樣本都包含RGBD和人體骨架。數據由10個不同的研究對象進行。評估協議與[31]相同。來自前兩個攝像機的樣本構成訓練集,來自另一個攝像機的樣本構成測試數據集。 
4.2執行
在實驗中,我們從每個骨架序列中抽取一個固定長度的T作爲輸入。我們分別爲NTU數據集和西北-UCLA數據集設置長度T=100和50.在擬議中AGC-lstm,每個節點的鄰域集只包含與自身直接連接的節點,因此D=1。爲了與St-gcn[35]進行公平的比較,AGC-lstm中的圖標記函數將進行分區。根據[35],將鄰域集分爲3個子集:根節點本身、向心羣和離心羣。三個AGC-LSTM層的通道設置爲512.在訓練期間,我們使用ADAM優化器[10]來優化網絡。採用概率爲0.5的輟學率,以避免在t上過度擬合。兩個數據集。將λ和β分別設爲0.0 1和0.001.初始學習率設置爲0.0005,並通過將其乘以每20個週期0.1個來降低。NTU數據集的批處理大小西北-加州大學洛杉磯分校的數據集分別爲64和30。
4.3.結果和比較
在這一部分中,我們將我們提出的注意力增強圖卷積LSTM網絡(AGC-LSTM)與幾種最新的方法在所使用的兩個數據集上進行了比較。

4.3.1 NTU RGB+D Dataset 

從表1可以看出,我們提出的方法在NTU數據集中的兩個協議方面達到了95.0%和89.2%的最佳性能。爲了證明我們的方法的有效性,我們CHO採用以下相關方法對結果進行比較和分析:

AGC-LSTM對HCN。

HCN[13]採用CNN模型,用於從骨架數據中學習全局共同出現。將骨架的每個關節作爲通道對待,然後使用卷積層學習GLOB共同發生所有關節的特徵。我們可以看到,我們的表現顯著超過hcn[13],在交叉視角評價和交叉主題評價方面分別比hcn高3.9%和2.7%。

 

表1與NTURGBD數據集上最先進的方法進行比較,用於交叉視圖(CS)和交叉主題(C V)的準確性評估。 

AGC-LSTM vs ST-GCN

 爲了與[35]進行比較,我們在建議的AGC-LSTM層中使用了與ST-GCN相同的GCN算子。對於St-gcn[35],它將gcn應用於關節的空間配置模型,然後使用學習各層時間動態的卷積算子。在聯合評價方面,AGC-LSTM的結果分別爲93.5%和87.5%,優於ST-GCN的5.2%和6.0%.比較結果表明,與ST-GCN相比,AGC-LSTM對基於骨架的動作識別是最優的.

時空域共現關係。

雖然Si等人[21]提出了一種基於圖神經網絡(GNN)和LSTM的空間推理和時態堆棧學習網絡,但忽略了時空間的共現關係。L域。由於研究空間域和時間域之間的共現關係的能力,我們的AGCLSTM比[21]提高了2.6%和4.4%。

關節級和部分級的表演。

最近的方法可分爲兩類:基於關節的[35,36,12,28,13]和基於部分的方法[21,28,4]。我們的方法實現了對關節級和部分級的現有技術的結果,這說明了我們的模型對於聯合級和部分級輸入的更好的推廣。

4.3.2 Northwestern-UCLA Dataset

如表2所示,在西北UCLA數據集上,建議的AGC-LSTM再次達到93.3%的最佳精度。以前的最先進的模型[12]採用了多時間滑動LSTM((ts-lstm)提取短期、中期和長期時間。動力學,它的功能類似於我們的時態層次結構。然而,我們的模型優於TS-LSTM[12]4.1%。與基於cnn的方法[16]相比,HOD也獲得了好得多的性能。

 

表2.與美國西北大學洛杉磯分校數據集最新方法的準確性比較

4.4.模型分析 

爲了瞭解我們的AGC-LSTM網絡的特性,我們分析了NTURGB+D數據集和NorthwestUCLA數據集的幾個關鍵組件的有效性,即時間分層ArchiteAGCLSTM和兩流網絡中的CATUE、AGC-LSTM、注意增強機制.最後,對幾個失效案例進行了分析,討論了基於骨架的動作識別中存在的問題.

4.4.1結構分析

表3和表4分別顯示了NTU RGB D數據集和NorthwesternUCLA數據集上幾條基線的實驗結果。HT表示時間層次結構。與LSTM比較DGC-LSTM、LSTM+HT和GC-LSTM+TH可以增加頂層上每個時間步長的時間接收場。改進的性能證明了時間分層體系結構可以提高T他是時間動態的代表。

 

表3。在NTURGB+D數據集中,多個基線和AGC-LSTM之間的比較結果。 

 

表4.西北-加州大學洛杉磯分校數據集上幾個基線與我們的AGC-LSTM的比較結果。 

用GC-LSTM代替LSTM,GC-LSTM HT對NTU數據集和西北UCLA數據集的準確率分別提高到2.5%、4.9%和10.9%。大幅度的性能改進-覈實GC-LSTM的有效性,它可以從骨架數據中獲取更多的區分時空特徵.與gc-lstm相比,agc-lstm可以利用空間注意機制進行選擇。關鍵節點的空間信息,提高了特徵表示的能力。另外,基於部分和基於聯合的AGC-LSTM的融合可以進一步提高性能.

我們還可視化了三個AGCLSTM層的注意權重,如圖6所示。結果表明,對於“握手”動作,我們的方法可以逐漸增強對“右肘”、“右腕”的注意。和“右手”。同時,“右手頂端”和“右拇指”有一定程度的關注。此外,我們還分析了在北西村產生混淆矩陣的實驗結果。數據集如圖7(A)所示,LSTM識別類似行爲是非常令人困惑的。例如,“用一隻手撿起”和“用兩隻手撿起”的動作有非常相似的骨架序列。奈然而,我們可以看到,建議的AGC-LSTM可以顯著提高對這些類似行爲進行分類的能力(如圖7(B)所示)。上述結果表明,所提出的AGC-LSTM IS是一種有效的基於骨架的交流方法。

 

圖6。在動作“信號交換“的一個角色上顯示三個AGCLSTM層的注意權重。縱軸表示關節。水平軸表示幀。(a)、(b)、(c)分別是第一層、第二層和第三層的注意結果。

 

圖7.NorthwesternUCLA數據集上的混淆矩陣比較。(A)低STM。(B)AGC-LSTM。 

 

圖8.NTU數據集上的混淆矩陣比較。它顯示了混淆矩陣的部分比較行動(“吃飯/零食”,“閱讀”,“寫作”,“玩電話/平板電腦”,“打字”)。在鍵盤上,“用手指指着某物”、“打噴嚏/咳嗽”、“拍拍別人的背”),在NTU數據集上的準確率低於80%。 

4.4.2失效案例

最後,在NTU數據集上用混淆矩陣對錯誤分類結果進行了分析。圖8顯示了動作的部分混淆矩陣比較(“吃飯/零食”、“閱讀”、“寫作”、“pla”)。應與電話/平板電腦,“鍵盤打字”,“手指指向某物”,“打噴嚏/咳嗽”,“拍拍他人的背部”)的準確性低於80%的交叉主題設置。NTU數據集我們可以看到,錯誤分類的行動主要是非常相似的運動。例如,20%的“閱讀”樣本被錯誤地歸類爲“書寫”,19%的“寫入”錯誤序列被錯誤地分類。分類爲“輸入爲鍵盤”。對於NTU數據集,只有兩個關節被標記在手指上(“手尖”和“拇指”),因此要捕捉到Th的這種微妙的運動是很有挑戰性的。E手

5.結論和今後的工作 

本文提出了一種基於骨架-4328的注意增強圖卷積lstm網絡(Agc-lstm),這是圖卷積lstm的第一次嘗試。這是一項任務。所提出的AGCLSTM不僅可以捕捉空間形態和時間動態上的判別特徵,而且可以探索時空d之間的共現關係。電源。此外,使用關注網絡來增強每個AGC-LSTM層中的關鍵關節的信息。此外,我們還提出了一種用於捕捉高LE的時間分層結構。Vel時空語義特徵在兩個具有挑戰性的基準上,提出的AGC-LSTM取得了最先進的結果.學習體位-對象關係可以幫助克服這些限制。在失敗案例中提到過。在未來,我們將嘗試將骨架序列和物體外觀結合起來,以提高人類行爲識別的性能。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章