论文浏览(14) STM: SpatioTemporal and Motion Encoding for Action Recognition


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:浙大&商汤
    • 发表时间:2019.8

1. 要解决什么问题

  • 当时的行为识别SOTA模型一般都会提取两种特征
    • 时空特征(Spatiotemporal features):期望编码不同帧中空间特征的相互关系
    • 运动特征(motion features):期望提取相邻帧中的运动特征
  • 作者将当前的行为识别模型分为两类:
    • 双流法:一般通过RGB+2D CNN提取空间(而非时空)特征,通过光流+2D CNN提取时间特征(temporal cues)
      • 作者认为光流+2D CNN不能提取long-term temporal features
    • 3D CNN:通过3D CNN来提取时空特征。
      • 从理论上看,3D CNN可以提取 Long-term temporal features。
      • 但3D CNN参数量太大,需要较多计算资源

2. 用了什么方法

  • 完全不使用3D CNN。
  • 提出了两个基本结构CSTM&CMM
    • CSTM,全称 Channel-wise SpatioTemporal Module
      • 用于快速提取时空特征。
      • 主要过程就是reshape后在T维度上进行1D卷积操作。
      • 注意,这里使用的channel wise卷积,应该就是depthwise卷积的意思吧。可以把这种卷积看做是分组卷积的极端情况。
    • CMM,全称 Channel-wise Motion Module
      • 用于提取动作特征
      • 主要过程就是先用2D卷积提取每一帧的特征,然后对相邻帧的特征进行融合,concat后得到最终结果。
    • image_1ec76bn7r7lglvmnkj1ras11fp16.png-88kB
  • 使用了一个类似于ResNet的结构,通过CSTM/CMM来构建整体网络
    • image_1ec76qc45tbbdmbbc71js226g23.png-125.1kB

3. 效果如何

  • 结果很好,在若干数据集上都达到了SOTA。
    • image_1ec770as51ukl1p9j1ua72vt1nto30.png-222.2kB
    • image_1ec770j3rhia14acifuposk6h3d.png-112.9kB
  • 时间性能上的对比,感觉速度不如TSM,但accruacy有较大提升
    • image_1ec776t3lalv1mar16aalco10br3q.png-63.7kB

4. 还存在什么问题

  • 作者说了不会开源。

  • 用在online demo上可能没有什么优势。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章