DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better

GitHub:https://github.com/fandulu/DD-Net

arxiv:https://arxiv.org/pdf/1907.09658.pdf

結論:一種基於關鍵點的動作識別方法,輸入爲時序上關鍵點位置,快到沒朋友,2000FPS無壓力

優點:

  • 很好復現,方法簡單粗暴,一看就肯定有效果
  • 快到沒朋友

缺點:

  • 需要基於相對完善的關鍵點定位
  • 想實際部署的話,數據集估計很難搞

這篇需要關注三個點

1.輸入JCD

2.輸入Cartesian Coordinates

3.時序上一維的CNN卷積

 

JCD

  • 不妨假設總共定位了N個特徵點,計算兩兩之間的距離,總計(N²+1)/2維
  • 不妨假設用到了連續的z幀
  • 則JCD爲 [batch,  z, 1, (N²+1)/2]維矩陣

 Cartesian Coordinates

  • 按快慢(步長爲1、2)計算關鍵點的變化距離
  • 移動較慢的數據維度爲 [batch, z-1, 1, N ],較快的爲  [batch, z-2, 1, N]
  • 統一resize成 [batch, z, 1, N ],否則沒法concat

時序上的卷積

  • 在時序的維度上做1D的卷積,即可關聯前後幀的信息,好處就不多說了
  • 上述輸入經過 1*1卷積 --> 3*1卷積 --> 1*1卷積 +pooling 映射到特徵空間
  • 三者concat之後再經過時序上的卷積,最後GAP+FC輸出

結果自然是好的

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章