論文瀏覽(14) STM: SpatioTemporal and Motion Encoding for Action Recognition


0. 前言

  • 相關資料:
  • 論文基本信息
    • 領域:行爲識別
    • 作者單位:浙大&商湯
    • 發表時間:2019.8

1. 要解決什麼問題

  • 當時的行爲識別SOTA模型一般都會提取兩種特徵
    • 時空特徵(Spatiotemporal features):期望編碼不同幀中空間特徵的相互關係
    • 運動特徵(motion features):期望提取相鄰幀中的運動特徵
  • 作者將當前的行爲識別模型分爲兩類:
    • 雙流法:一般通過RGB+2D CNN提取空間(而非時空)特徵,通過光流+2D CNN提取時間特徵(temporal cues)
      • 作者認爲光流+2D CNN不能提取long-term temporal features
    • 3D CNN:通過3D CNN來提取時空特徵。
      • 從理論上看,3D CNN可以提取 Long-term temporal features。
      • 但3D CNN參數量太大,需要較多計算資源

2. 用了什麼方法

  • 完全不使用3D CNN。
  • 提出了兩個基本結構CSTM&CMM
    • CSTM,全稱 Channel-wise SpatioTemporal Module
      • 用於快速提取時空特徵。
      • 主要過程就是reshape後在T維度上進行1D卷積操作。
      • 注意,這裏使用的channel wise卷積,應該就是depthwise卷積的意思吧。可以把這種卷積看做是分組卷積的極端情況。
    • CMM,全稱 Channel-wise Motion Module
      • 用於提取動作特徵
      • 主要過程就是先用2D卷積提取每一幀的特徵,然後對相鄰幀的特徵進行融合,concat後得到最終結果。
    • image_1ec76bn7r7lglvmnkj1ras11fp16.png-88kB
  • 使用了一個類似於ResNet的結構,通過CSTM/CMM來構建整體網絡
    • image_1ec76qc45tbbdmbbc71js226g23.png-125.1kB

3. 效果如何

  • 結果很好,在若干數據集上都達到了SOTA。
    • image_1ec770as51ukl1p9j1ua72vt1nto30.png-222.2kB
    • image_1ec770j3rhia14acifuposk6h3d.png-112.9kB
  • 時間性能上的對比,感覺速度不如TSM,但accruacy有較大提升
    • image_1ec776t3lalv1mar16aalco10br3q.png-63.7kB

4. 還存在什麼問題

  • 作者說了不會開源。

  • 用在online demo上可能沒有什麼優勢。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章