GitHub:https://github.com/fandulu/DD-Net
arxiv:https://arxiv.org/pdf/1907.09658.pdf
結論:一種基於關鍵點的動作識別方法,輸入爲時序上關鍵點位置,快到沒朋友,2000FPS無壓力
優點:
- 很好復現,方法簡單粗暴,一看就肯定有效果
- 快到沒朋友
缺點:
- 需要基於相對完善的關鍵點定位
- 想實際部署的話,數據集估計很難搞
這篇需要關注三個點
1.輸入JCD
2.輸入Cartesian Coordinates
3.時序上一維的CNN卷積
JCD
- 不妨假設總共定位了N個特徵點,計算兩兩之間的距離,總計(N²+1)/2維
- 不妨假設用到了連續的z幀
- 則JCD爲 [batch, z, 1, (N²+1)/2]維矩陣
Cartesian Coordinates
- 按快慢(步長爲1、2)計算關鍵點的變化距離
- 移動較慢的數據維度爲 [batch, z-1, 1, N ],較快的爲 [batch, z-2, 1, N]
- 統一resize成 [batch, z, 1, N ],否則沒法concat
時序上的卷積
- 在時序的維度上做1D的卷積,即可關聯前後幀的信息,好處就不多說了
- 上述輸入經過 1*1卷積 --> 3*1卷積 --> 1*1卷積 +pooling 映射到特徵空間
- 三者concat之後再經過時序上的卷積,最後GAP+FC輸出