VALSE Webinar 20200226 视频行为识别 Action Recognition 摘要

文章目录

0. 前言

参考资料：
- 官方发布的视频：只有1小时。
- 非官方发布的视频：1小时40分，也不全。
- slides
提纲：
- 复杂视频序列的深度表征与理解方法
  - 演讲人：中国科学院深圳先进技术研究院 - 乔宇
  - 主要内容：行为识别数据集、行为识别早期方法（非深度学习+少量深度学习）、行为识别最新进展。
- Spatial-temporal action detection with Long-term Information Integration
  - 演讲人：上海交大 - 林巍峣
  - 主要内容：视频中行为的时空定位，以及对应的方法。
- 就以下几个议题进行讨论
  - 行为的主观性、不平衡性、复合型讨论
  - 视频数据集的标注问题、算力问题
  - 目前已有的应用场景
  - 研究热点、难点
我个人关注的点：
- 实时行为识别落地还是非常困难，只能在特定场景下靠大量数据来实现。
- 数据生成可以考虑使用3D模型来构建模拟数据，效果也很好。
- Spatial-temporal action detection 的基本思路还挺有意思，只不过离应用还早得很。
- 关注两个数据集：
  - human in action：多人场景下的时空行为检测，暂时关闭下载，要等9月份。
  - VIRAT：真实监控场景下的数据，可下载。

1. 复杂视频序列的深度表征与理解方法

1.1. 数据集

数据集来源的历史发展：
- 实验室收集。
- 电影、体育赛事视频。
- 互联网视频（如youtube）。
目前常用的数据集：

1.2. 早期行为识别方法

非深度学习方法
- 这类不太懂，就记录几个关键字吧。
- 视频的时空兴趣点和轨迹（2005/2011年的工作）
- 视频的时空特征（通过HoG/HoF/MBH等方法手工提取），2011年左右
- 视频的中层表示，CVPR2013的工作
- 视频特征编码（CVPR2014年的工作，应该是非深度学习中最好的）
早期深度学习方法：
- 简单介绍三篇内容：
  - 斯坦福的这篇是CNN时空信息融合的一种尝试，比较直接，效果一般。
  - 牛津这篇是双流法的开端，使用了光流、RGB流同时使用。
  - Facebook这篇就更有意思了，直接把VGG网络做成3D形式，即C3D。
  - 下面三篇的效果并没有比之前的非深度学习的方法好。
- TDD（轨迹池化卷积特征，2015）
  - 应该是深度学习+传统方法的一次尝试。
  - 感觉类似于RCNN，TDD也是把把提取特征的工作交给CNN，其他基本上没用深度学习的方法。
  - 第一篇全面超越传统方法的论文。
- TRN（2016）
  - 目标解决的是对视频序列建模以及使用深度学习方法处理。
    - 核心问题：视频的数据量大，特征维度很高，但深度学习的训练受制于显存和SGD算法
  - 这篇的主要思路是多段融合，就是吧视频分为多段，分别提取特征后，最后融合结果。
  - 这篇文章应该没有用到3D，是后面TSM的基础。

1.3. 视频行为识别的新进展

3D卷积神经网络
- I3D：3D CNN的一种，在C3D的基础上引入了光流，将Inception结构转换为3D网络。
- S3D/R(2+1)D：卷积时空分解，也就是说把 3*3*3 卷积分结果为 1*3*3 + 3*1*1，这样参数数量也会减少，运算也减少。
- CSN：3D分解模型，主要就是引入depthwise，减少计算量，提高性能。
- ARTNet：时空关系建模，即2D卷积用于提取特征，但空间特征无法提取，所以设计了一种结构用于获取相邻两帧之间的信息。
- Non-local：时空跨度依赖模型，时间空间距离较远特征之间的关系进行建模。传统CNN要做到这一点只能靠扩大感受域（这就代表参数增加）。
- SlowFast：快/慢两条通道融合结果。
- TSM：面向3D任务的2D轻量化模型，全部使用2D卷积，对N, T, C, H, W上在T纬度上进行shift。
- SmallBigNet
Pose-Based行为识别
- RPAN：CNN+RNN，对行为的动态过程建模，把行为识别与姿态估计结合，利用姿态变化引导RNN对行为的动态过程进行建模。
- PA3D：把姿态信息作为一种输入，用3D网络进行建模。一般先进行姿态估计，再将pose heat map编码成图像channel信息。
- ST-GCN：骨架+图神经网络，骨架本身是一张图，骨架随时间变化的也是一张图，然后通过图神经网络建模。
- AS-GCN

1.4. 总结与展望

数据库：更大规模，更精细，特定场景，特定物体。
网络：3D网络（时空效率较低）、长时序列、姿态（2D/3D）、运动、时空关系。
应用：智慧城市（异常行为、长尾类别）、网络视频（开集、持续学习、生成模型）

2. 时空行为检测

原标题：Spatial-temporal action detection with Long-term Information Integration
视频中行为的时空定位（较新的研究议题）
工业界关注点
- 视频网站：temporal detection，视频摘要。
- 监控：spatial-temporal detection。
现有主要套路（与目标跟踪类似）：
- 第一步：在每一帧上检测可能出现行为的区域。
- 第二步：时域中，对不同帧进行关联。
现有工作的主要问题：
- 缺乏长期信息。
- 复杂度很高，因为要对每一帧进行检测，要求强大算力。
- 噪声造成的影响很大（比如中间有一帧出错，之后的都会受到影响）。
讲者的工作：
- 添加长期信息。
- 选择关键帧处理，这样减少计算量也会减少噪声的影响。
讲者所在团队花大价钱构建了数据集 Human in action
- 就是 Spatial-temporal action detection 的数据集，但已经关闭注册啦。

3. 讨论

3.1. 行为的主观性、不平衡性、复合型

概念
- 主观性：每个人表现不同，不同人标注结果不同。
- 不平衡性：行为千变万化。
- 复合型：日常生活为一系列简单行为组成的复杂性为，同时包括周围环境的变化。
乔：更精细的数据标定，与知识理解（知识驱动、知识图谱）相结合，
林：
- hieratical的方法，就是多级分类。
- 视频监控等场景中，对某几类特别关注，唯一的方法就是增大数据量。增大数据量的一种方法是生成一些数据，特别是3D模型。
蒋：
- hieratical 会陷入泥潭，没有好的答案。
- 两个好的尝试：分解名词和动词，划分细粒度是应用驱动的。

3.2. 视频数据集的标注问题、算力问题

乔：
- 设计高效3D卷积网络
- 半自动标注，非监督方法标注，生成数据（游戏、电影）
林：
- 真实数据标注没有更好的办法，3维模型生成（GAN不管用）。
- 3D网络还在研究阶段，还不成熟。
蒋：
- 无监督学习/弱监督学习标注，3d simulation生成。

3.3. 目前已有技术的应用场景

乔：
- 异常行为/危险行为检测，目前还都比较困难。学术进展不代表工业界提高。
- 视频推荐。
林：
- 视频网站：视频摘要+推荐，做得不错。
- 监控：很难（以打架为例），与推荐要求不一样。
蒋：
- 必须结合一个具体问题进行处理。
- 趋势：在线识别->预测未来。

3.4. 研究热点、难点

乔：数据库构建（要突破Internet的限制），高效backbone（短视频/长时网络），姿态/物品/时空信息监测。
林：通用性处理时空数据的backbone，具体应用上行为时空监测/细粒度行为(fine-gained)/骨架、目标技术（骨架提取好对行为识别的提升很大，但目前在复杂场景下骨架提取还是有较大问题）。
蒋：视频方向可能会有NAS（你的竞争对手不是人，而是大规模集群），无标注/若标注数据处理的backbone，未来帧预测有较好效果，多模态的识别（如考虑到隐私，只有深度，没有RGB），spatial-temporal 检测，VIRAT 数据集。
王：
- 视频backbone设计，相比图像数据量大、冗余性高，可能可以添加先验。
- 弱监督算法（多模态，语音、视频、文本）。
- 具体应用场景有不同框架，多人需要时空检测，多人行为合成群体动作。

VALSE Webinar 20200226 视频行为识别 Action Recognition 摘要

文章目录

0. 前言

1. 复杂视频序列的深度表征与理解方法

1.1. 数据集

1.2. 早期行为识别方法

1.3. 视频行为识别的新进展

1.4. 总结与展望

2. 时空行为检测

3. 讨论

3.1. 行为的主观性、不平衡性、复合型

3.2. 视频数据集的标注问题、算力问题

3.3. 目前已有技术的应用场景

3.4. 研究热点、难点

TensorRT C++ Samples(1) sampleMNIST

ResNet/ResNet-I3D/ResNet-I3D-SlowFast 源碼閱讀

Ubuntu Desktop 使用記錄

論文瀏覽(11) A Multigrid Method for Efficiently Training Video Models

論文瀏覽(10) Towards Real-Time Multi-Object Tracking

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結