0. 前言
1. 要解決什麼問題
- 當時的行爲識別SOTA模型一般都會提取兩種特徵
- 時空特徵(Spatiotemporal features):期望編碼不同幀中空間特徵的相互關係
- 運動特徵(motion features):期望提取相鄰幀中的運動特徵
- 作者將當前的行爲識別模型分爲兩類:
- 雙流法:一般通過RGB+2D CNN提取空間(而非時空)特徵,通過光流+2D CNN提取時間特徵(temporal cues)
- 作者認爲光流+2D CNN不能提取long-term temporal features
- 3D CNN:通過3D CNN來提取時空特徵。
- 從理論上看,3D CNN可以提取 Long-term temporal features。
- 但3D CNN參數量太大,需要較多計算資源
- 雙流法:一般通過RGB+2D CNN提取空間(而非時空)特徵,通過光流+2D CNN提取時間特徵(temporal cues)
2. 用了什麼方法
- 完全不使用3D CNN。
- 提出了兩個基本結構CSTM&CMM
- CSTM,全稱 Channel-wise SpatioTemporal Module
- 用於快速提取時空特徵。
- 主要過程就是reshape後在T維度上進行1D卷積操作。
- 注意,這裏使用的channel wise卷積,應該就是depthwise卷積的意思吧。可以把這種卷積看做是分組卷積的極端情況。
- CMM,全稱 Channel-wise Motion Module
- 用於提取動作特徵
- 主要過程就是先用2D卷積提取每一幀的特徵,然後對相鄰幀的特徵進行融合,concat後得到最終結果。
- CSTM,全稱 Channel-wise SpatioTemporal Module
- 使用了一個類似於ResNet的結構,通過CSTM/CMM來構建整體網絡
3. 效果如何
- 結果很好,在若干數據集上都達到了SOTA。
- 時間性能上的對比,感覺速度不如TSM,但accruacy有較大提升
4. 還存在什麼問題
-
作者說了不會開源。
-
用在online demo上可能沒有什麼優勢。