註解版:基於動態骨骼的動作識別方法ST-GCN(時空圖卷積網絡模型)

原文鏈接:解讀:基於動態骨骼的動作識別方法ST-GCN(時空圖卷積網絡模型)

在這裏插入圖片描述

在本文中,通過將圖卷積網絡擴展到時空圖模型,設計用於行爲識別的骨骼序列通用表示,稱爲時空圖卷積網絡(ST-GCN)。如圖 2 所示,該模型是在骨骼圖序列上制定的,其中每個節點對應於人體的一個關節。圖中存在兩種類型的邊,即符合關節的自然連接的空間邊(spatial edge)和在連續的時間步驟中連接相同關節的時間邊(temporal edge)。在此基礎上構建多層的時空圖卷積,它允許信息沿着空間和時間兩個維度進行整合。
在這裏插入圖片描述

  • 早期基於骨骼進行動作識別的方法只是在各個時間步驟使用關節座標形成特徵向量,ST-GCN將關節轉爲結點,骨骼轉化爲邊,構成了G=<V,E>圖,可以連接時間與空間。
  • 可以這麼看,原先是時間t0的人體骨骼圖,將關節轉爲結點,骨骼轉爲邊,形成一個二維圖,然後再講t0的1結點與t1的1結點相連,t1的1結點與t2的1結點相連,以此類推連接成一個時間空間三維圖,即ST-GCN圖

2.1 通道
基於骨骼的數據可以從運動捕捉設備或視頻的姿態估計算法中獲得。通常來說,數據是一系列的幀,每一幀都有一組聯合座標。給定 2D 或 3D 座標系下的身體關節序列,我們就能構造一個時空圖。其中,人體關節對應圖的節點,人體身體結構的連通性和時間上的連通性對應圖的兩類邊。因此,ST-GCN 的輸入是圖節點的聯合座標向量。這可以被認爲是一個基於圖像的 CNN 模擬,其中輸入由 2D 圖像網格上的像素強度矢量形成。對輸入數據應用多層的時空圖卷積操作,可以生成更高級別的特徵圖。然後,它將被標準的 SoftMax 分類器分類到相應的動作類別。整個模型用反向傳播進行端對端方式的訓練。現在,我們將介紹 ST-GCN 模型的各個部分。

  • ST-GCN是基於CNN誕生的,但是在CNN基礎上多出了一個維度
  • 端對端即輸入原始數據輸出最終結果,原來輸入端不是直接的原始數據,而是在原始數據中提取的特徵。
  • 傳統的方式與端對端的區別—— 前者是半成品到成品,後者是原料到成品

下述討論建立在這種討論上。設一個大小爲K x K的卷積核,輸入圖像爲fin ,通道數爲c。單個通道在位置x的輸出: 這裏是引用在這裏插入圖片描述

  • 輸入函數fin中,x代表中心點的位置,h,w爲以X爲中心點的高度和寬度,w(h,w)爲設置的權重,
  • 至於p’(w,h)函數,諮詢王老師後,王老師的意見是這個函數寫的不規範
  • 輸入圖像上的所有濾鏡權重共享:因爲是用同一個權重掃描。
  • functionB(Vti)此處應該是寫錯了,應該是選取距離小於等於定值D的點。
  • 關於卷積方面不瞭解的可以參考這兩篇文章:
    CNN卷積神經網絡入門基礎知識
    淺析CNN卷積神經網絡feature map

在兩個數據集的三個測試協議上,ST-GCN 相比現有方法在識別精度上均有很大提高,具體結果可見表。

  • 原文中缺少的表
    原文中缺少的表
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章