VALSE Webinar 20200226 视频行为识别 Action Recognition 摘要


0. 前言

  • 参考资料:
  • 提纲:
    • 复杂视频序列的深度表征与理解方法
      • 演讲人:中国科学院深圳先进技术研究院 - 乔宇
      • 主要内容:行为识别数据集、行为识别早期方法(非深度学习+少量深度学习)、行为识别最新进展。
    • Spatial-temporal action detection with Long-term Information Integration
      • 演讲人:上海交大 - 林巍峣
      • 主要内容:视频中行为的时空定位,以及对应的方法。
    • 就以下几个议题进行讨论
      • 行为的主观性、不平衡性、复合型讨论
      • 视频数据集的标注问题、算力问题
      • 目前已有的应用场景
      • 研究热点、难点
  • 我个人关注的点:
    • 实时行为识别落地还是非常困难,只能在特定场景下靠大量数据来实现。
    • 数据生成可以考虑使用3D模型来构建模拟数据,效果也很好。
    • Spatial-temporal action detection 的基本思路还挺有意思,只不过离应用还早得很。
    • 关注两个数据集:
      • human in action:多人场景下的时空行为检测,暂时关闭下载,要等9月份。
      • VIRAT:真实监控场景下的数据,可下载。

1. 复杂视频序列的深度表征与理解方法

1.1. 数据集

  • 数据集来源的历史发展:
    • 实验室收集。
    • 电影、体育赛事视频。
    • 互联网视频(如youtube)。
  • 目前常用的数据集:
    image_1eap022evju61i4r1s7p7ks4ak9.png-213.4kB

1.2. 早期行为识别方法

  • 非深度学习方法
    • 这类不太懂,就记录几个关键字吧。
    • 视频的时空兴趣点和轨迹(2005/2011年的工作)
    • 视频的时空特征(通过HoG/HoF/MBH等方法手工提取),2011年左右
    • 视频的中层表示,CVPR2013的工作
    • 视频特征编码(CVPR2014年的工作,应该是非深度学习中最好的)
  • 早期深度学习方法:
    • 简单介绍三篇内容:
      • 斯坦福的这篇是CNN时空信息融合的一种尝试,比较直接,效果一般。
      • 牛津这篇是双流法的开端,使用了光流、RGB流同时使用。
      • Facebook这篇就更有意思了,直接把VGG网络做成3D形式,即C3D。
      • 下面三篇的效果并没有比之前的非深度学习的方法好。
      • image_1eap3r1hig9ss9m1gcj1h5tr3mm.png-566.9kB
    • TDD(轨迹池化卷积特征,2015)
      • 应该是深度学习+传统方法的一次尝试。
      • 感觉类似于RCNN,TDD也是把把提取特征的工作交给CNN,其他基本上没用深度学习的方法。
      • 第一篇全面超越传统方法的论文。
    • TRN(2016)
      • 目标解决的是对视频序列建模以及使用深度学习方法处理。
        • 核心问题:视频的数据量大,特征维度很高,但深度学习的训练受制于显存和SGD算法
      • 这篇的主要思路是多段融合,就是吧视频分为多段,分别提取特征后,最后融合结果。
      • 这篇文章应该没有用到3D,是后面TSM的基础。

1.3. 视频行为识别的新进展

  • 3D卷积神经网络
    • I3D:3D CNN的一种,在C3D的基础上引入了光流,将Inception结构转换为3D网络。
    • S3D/R(2+1)D:卷积时空分解,也就是说把 3*3*3 卷积分结果为 1*3*3 + 3*1*1,这样参数数量也会减少,运算也减少。
    • CSN:3D分解模型,主要就是引入depthwise,减少计算量,提高性能。
    • ARTNet:时空关系建模,即2D卷积用于提取特征,但空间特征无法提取,所以设计了一种结构用于获取相邻两帧之间的信息。
    • Non-local:时空跨度依赖模型,时间空间距离较远特征之间的关系进行建模。传统CNN要做到这一点只能靠扩大感受域(这就代表参数增加)。
    • SlowFast:快/慢两条通道融合结果。
    • TSM:面向3D任务的2D轻量化模型,全部使用2D卷积,对N, T, C, H, W上在T纬度上进行shift。
    • SmallBigNet
  • Pose-Based行为识别
    • RPAN:CNN+RNN,对行为的动态过程建模,把行为识别与姿态估计结合,利用姿态变化引导RNN对行为的动态过程进行建模。
    • PA3D:把姿态信息作为一种输入,用3D网络进行建模。一般先进行姿态估计,再将pose heat map编码成图像channel信息。
    • ST-GCN:骨架+图神经网络,骨架本身是一张图,骨架随时间变化的也是一张图,然后通过图神经网络建模。
    • AS-GCN

1.4. 总结与展望

  • 数据库:更大规模,更精细,特定场景,特定物体。
  • 网络:3D网络(时空效率较低)、长时序列、姿态(2D/3D)、运动、时空关系。
  • 应用:智慧城市(异常行为、长尾类别)、网络视频(开集、持续学习、生成模型)

2. 时空行为检测

  • 原标题:Spatial-temporal action detection with Long-term Information Integration
  • 视频中行为的时空定位(较新的研究议题)
  • 工业界关注点
    • 视频网站:temporal detection,视频摘要。
    • 监控:spatial-temporal detection。
  • 现有主要套路(与目标跟踪类似):
    • 第一步:在每一帧上检测可能出现行为的区域。
    • 第二步:时域中,对不同帧进行关联。
  • 现有工作的主要问题:
    • 缺乏长期信息。
    • 复杂度很高,因为要对每一帧进行检测,要求强大算力。
    • 噪声造成的影响很大(比如中间有一帧出错,之后的都会受到影响)。
  • 讲者的工作:
    • 添加长期信息。
    • 选择关键帧处理,这样减少计算量也会减少噪声的影响。
  • 讲者所在团队花大价钱构建了数据集 Human in action
    • 就是 Spatial-temporal action detection 的数据集,但已经关闭注册啦。

3. 讨论

image_1eapmb6pj1sasnisf2ttvc80313.png-759.3kB

3.1. 行为的主观性、不平衡性、复合型

  • 概念
    • 主观性:每个人表现不同,不同人标注结果不同。
    • 不平衡性:行为千变万化。
    • 复合型:日常生活为一系列简单行为组成的复杂性为,同时包括周围环境的变化。
  • 乔:更精细的数据标定,与知识理解(知识驱动、知识图谱)相结合,
  • 林:
    • hieratical的方法,就是多级分类。
    • 视频监控等场景中,对某几类特别关注,唯一的方法就是增大数据量。增大数据量的一种方法是生成一些数据,特别是3D模型。
  • 蒋:
    • hieratical 会陷入泥潭,没有好的答案。
    • 两个好的尝试:分解名词和动词,划分细粒度是应用驱动的。

3.2. 视频数据集的标注问题、算力问题

  • 乔:
    • 设计高效3D卷积网络
    • 半自动标注,非监督方法标注,生成数据(游戏、电影)
  • 林:
    • 真实数据标注没有更好的办法,3维模型生成(GAN不管用)。
    • 3D网络还在研究阶段,还不成熟。
  • 蒋:
    • 无监督学习/弱监督学习标注,3d simulation生成。

3.3. 目前已有技术的应用场景

  • 乔:
    • 异常行为/危险行为检测,目前还都比较困难。学术进展不代表工业界提高。
    • 视频推荐。
  • 林:
    • 视频网站:视频摘要+推荐,做得不错。
    • 监控:很难(以打架为例),与推荐要求不一样。
  • 蒋:
    • 必须结合一个具体问题进行处理。
    • 趋势:在线识别->预测未来。

3.4. 研究热点、难点

  • 乔:数据库构建(要突破Internet的限制),高效backbone(短视频/长时网络),姿态/物品/时空信息监测。

  • 林:通用性处理时空数据的backbone,具体应用上行为时空监测/细粒度行为(fine-gained)/骨架、目标技术(骨架提取好对行为识别的提升很大,但目前在复杂场景下骨架提取还是有较大问题)。

  • 蒋:视频方向可能会有NAS(你的竞争对手不是人,而是大规模集群),无标注/若标注数据处理的backbone,未来帧预测有较好效果,多模态的识别(如考虑到隐私,只有深度,没有RGB),spatial-temporal 检测,VIRAT 数据集。

  • 王:

    • 视频backbone设计,相比图像数据量大、冗余性高,可能可以添加先验。
    • 弱监督算法(多模态,语音、视频、文本)。
    • 具体应用场景有不同框架,多人需要时空检测,多人行为合成群体动作。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章