註解版：基於動態骨骼的動作識別方法ST-GCN（時空圖卷積網絡模型）

原創

2020-07-07 11:11

原文鏈接：解讀：基於動態骨骼的動作識別方法ST-GCN（時空圖卷積網絡模型）

在本文中，通過將圖卷積網絡擴展到時空圖模型，設計用於行爲識別的骨骼序列通用表示，稱爲時空圖卷積網絡（ST-GCN）。如圖 2 所示，該模型是在骨骼圖序列上制定的，其中每個節點對應於人體的一個關節。圖中存在兩種類型的邊，即符合關節的自然連接的空間邊（spatial edge）和在連續的時間步驟中連接相同關節的時間邊（temporal edge）。在此基礎上構建多層的時空圖卷積，它允許信息沿着空間和時間兩個維度進行整合。

早期基於骨骼進行動作識別的方法只是在各個時間步驟使用關節座標形成特徵向量，ST-GCN將關節轉爲結點，骨骼轉化爲邊，構成了G=<V,E>圖，可以連接時間與空間。
可以這麼看，原先是時間t0的人體骨骼圖，將關節轉爲結點，骨骼轉爲邊，形成一個二維圖，然後再講t0的1結點與t1的1結點相連，t1的1結點與t2的1結點相連，以此類推連接成一個時間空間三維圖，即ST-GCN圖

2.1 通道
基於骨骼的數據可以從運動捕捉設備或視頻的姿態估計算法中獲得。通常來說，數據是一系列的幀，每一幀都有一組聯合座標。給定 2D 或 3D 座標系下的身體關節序列，我們就能構造一個時空圖。其中，人體關節對應圖的節點，人體身體結構的連通性和時間上的連通性對應圖的兩類邊。因此，ST-GCN 的輸入是圖節點的聯合座標向量。這可以被認爲是一個基於圖像的 CNN 模擬，其中輸入由 2D 圖像網格上的像素強度矢量形成。對輸入數據應用多層的時空圖卷積操作，可以生成更高級別的特徵圖。然後，它將被標準的 SoftMax 分類器分類到相應的動作類別。整個模型用反向傳播進行端對端方式的訓練。現在，我們將介紹 ST-GCN 模型的各個部分。

ST-GCN是基於CNN誕生的，但是在CNN基礎上多出了一個維度
端對端即輸入原始數據輸出最終結果，原來輸入端不是直接的原始數據，而是在原始數據中提取的特徵。
傳統的方式與端對端的區別—— 前者是半成品到成品，後者是原料到成品

下述討論建立在這種討論上。設一個大小爲K x K的卷積核，輸入圖像爲fin ，通道數爲c。單個通道在位置x的輸出:

輸入函數fin中，x代表中心點的位置，h，w爲以X爲中心點的高度和寬度，w（h,w）爲設置的權重，
至於p’（w,h）函數，諮詢王老師後，王老師的意見是這個函數寫的不規範
輸入圖像上的所有濾鏡權重共享：因爲是用同一個權重掃描。
functionB（Vti）此處應該是寫錯了，應該是選取距離小於等於定值D的點。
關於卷積方面不瞭解的可以參考這兩篇文章：
CNN卷積神經網絡入門基礎知識
 淺析CNN卷積神經網絡feature map

在兩個數據集的三個測試協議上，ST-GCN 相比現有方法在識別精度上均有很大提高，具體結果可見表。

原文中缺少的表

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於時空圖卷積模型的分析歸納

名稱 ST-GCN 目的解決基於人體骨架關鍵點的人類動作識別問題優點 1、空間關係利用人類關節空間關係理解人類行爲2、層次性ST-GCN 的層次性消除了手動劃分部分或遍歷規則的需要。這不僅能獲得更強的表達能力

2020-07-07 11:11:22

圖卷積-動作識別-姿態預測三篇論文歸納

名稱 Actional-Structural Graph Convolutional Networks forSkeleton-based Action Recognition Convolutional Neural Ne

2020-07-07 11:11:21

OpenPose的安裝

要求： Ubuntu 14/16 GPU 2GB/1.5GB (nvidia-smi查看顯存) 2GB RAM 8核CPU 非常重要：如果安裝CUDA8的ubuntu14/16：一.需要：CUDA， cuDNN, Open

2020-06-30 07:17:24

Numpy實現圖卷積網絡

由於圖結構非常複雜且信息量很大，因此對於圖的機器學習是一項艱鉅的任務。本文介紹瞭如何使用圖卷積網絡（GCN）對圖進行深度學習，GCN 是一種可直接作用於圖並利用其結構信息的強大神經網絡。本文將介紹 GCN，並使用代碼示例說明信息是

2020-07-07 11:11:19

Linkage Based Face Clustering via Graph Convolution Network

Linkage Based Face Clustering via Graph Convolution Network 本文使用圖卷積做基於邊預測的臉聚類，如果兩個點屬於同一類，那麼這兩個點之間就會有一條邊連接，最後找出所有的圖即

2020-07-02 09:14:20

圖卷積網絡-《深入淺出圖神經網絡》讀書筆記

由於是word格式，在這裏我就直接放截圖了，都是自己的思考，謝謝大家！參考文獻：《深入淺出圖神經網絡》

2020-06-30 23:30:56

A GRAPH-CNN FOR 3D POINT CLOUD CLASSIFICATION

提出了一種基於圖卷積神經網絡提取點特徵的點雲分類網絡。輸入N*3的點雲，通過切比雪夫多項式的圖卷積，先升成N*1000，也就是把每個節點的信息增加到1000維，然後針對global-pooling，再做一次卷積，把兩次卷積得到的2個N

2020-06-23 23:14:30

Dynamic Graph CNN for Learning on Point Clouds

提出了一種動態邊卷積，給定一個近鄰數量k，從輸入的n*3點雲開始，第一次點的特徵只包括xyz三個屬性，然後每個點計算自己的k近鄰點，針對每個點與自己k近鄰點形成的點對，其對應的edge維度爲6，因爲是兩個點特徵的concat，總共有n*

2020-06-23 23:14:30

Linked Dynamic Graph CNN: Learning on Point Cloud via Linking Hierarchical Features

在DGCNN上做了一些改進： and there are several differences between our LDGCNN and DGCNN: • We link hierarchical features from d

2020-06-23 23:14:30

動作識別——action recognition新手入門

定義行爲識別似乎是圖像分類任務到多個幀的擴展，然後聚合來自每幀的預測背景傳統方法，視頻輸入=》特徵提取=》特徵融合=》特徵分類=》分類結果深度學習方法，單流法，雙流法，基於骨架特徵提取，ROI提取表示傳統方法 DT（D

2020-07-07 20:22:22

動作識別——Multi-Model Domain Adaptation for Fine-Grained Action Recognition——CVPR2020 oral

Abstract Fine-grained action recognition datasets exhibit environmental bias, where multiple video sequences are c

2020-07-07 19:25:33

Temporal Pyramid Network for Action Recognition（CVPR2020）

Abstract 視覺節奏表徵了動作的動態和時間尺度。對不同動作的這種視覺節奏進行建模有助於動作的識別。以前的工作通常通過以多種速率採樣原始視頻，並構建輸入級幀金字塔來捕獲視覺節奏，而幀金字塔通常需要昂貴的多分支網絡來處理。本文提出了一種

2020-07-05 17:06:48

Video Classification with Channel-Separated Convolutional Netwroks 論文閱讀

論文地址：https://arxiv.org/abs/1904.02811 Github：https://github.com/facebookresearch/VMZ 論文思想：這篇文章的主要出發點就是降低3D網絡的參數量，並且希望找

2020-07-02 12:36:08

【fork】openpose檢測的多種情況(多人，單人，圖像，視頻，計算角度)

openpose檢測的多種情況1.來源2.使用openpose檢測的代碼3.各種情況3.1 直接檢測多人（圖像）3.2 直接檢測多人（視頻）3.3 檢測單人（圖像）4.目標檢測代碼4.1 目標檢測4.1.1 主函數內的代碼4.1.

2020-07-01 21:03:58

解決openpose msb6006 cmd.exe exit code 1錯誤

環境描述：win10 cmake vs2015 openpose1.5.1源碼 cuda10.1 rtx2060 目的：在Windows上部署Openpose 問題：編譯Openpose.lib報錯，錯誤內容如題。解決： 1. 剛開始不

2020-06-27 05:53:30

24小時熱門文章

最新文章

最新評論文章