论文笔记Temporal Pyramid Network for Action Recognition
1. 论文标题及来源
Temporal Pyramid Network for Action Recognition, CVPR, 2020
下载地址:https://arxiv.org/abs/1903.01038
2. 拟解决问题
不同行为拥有不同的visual tempo,在建模这种visual tempo时,传统方法以多采样率方式从原视频中采样,计算量大,本文就是为了解决这个问题
3. 解决方法
3.1 算法流程
为了建模visual tempo,作者发现同一个网络的不同深度实际上就已经体现了不同的visual tempo,基于这点,作者在feature level构建时序金字塔网络。该算法的骨干网络是3D ResNet。该网络由四部分组成,首先是骨干网络,该部分主要用来提取特征;接着是Spatial Modulation,该模块主要用来提取语义特征;然后是Temporal Modulation模块,该模块主要用来提取时序特征;然后通过Information Flow模块融合这两个特征,最后预测结果。
a. 从原始视频中间隔连续采样64帧
b. 将其输入到骨干网络中提取特征
c. 然后将不同深度的特征构成特征金字塔,输入到spatial modulation
d. 将spatial modulation中输出的特征输入到temporal modulation进行时序下采样
e. 融合两个模块不同深度的所有特征
f. 预测其最终行为
3.2 特征金字塔构成
单深度金字塔:通过骨干网络提取的特征记为,在T(temporal)轴上使用M个不同的采样比例()采样,从而可以得到M个不同的特征,其维度分别为,,… ,,通过这种方式可以单深度金字塔。但是该方式可能不能充分利用语义信息。
多深度金字塔:在网络的多层中共采集M个特征,记为,每个特征的维度是,… ,,并且
3.3 spatial modulation
在该模块中,为了对齐来自不同深度的特征,使用相应步长的卷积来对齐size(W和H),并且同时加入了"classification head"来进行强监督,使其能学习到更好的特征
3.4 temporal modulation
在该模块中,引入了一系列的时序下采样因子,表示对通过spatial modulation更新的第i个特征进行时序下采样,通过parametric sub-net实现。加入下采样因子后,可以控制不同时间尺度的相对区别。
3.5 information flow
表示融合后的第i个特征,表示对应位置的元素相加,表示沿着T轴下采样,F是特征,是下采样因子。通过上述公式即可完成特征融合。具体方式可以见下图
4. 实验结果
4.1 Kinetics-400
4.2 Something-Something
4.3 Epic-Kitchen
4.4 消融实验
6. 总结
使用骨干网络的不同深度特征,然后形成特征金字塔,将它们输入到空间模块学习语义信息,时序模块学习时序信息,接着融合语义信息和时序信息,最后得到预测结果