论文笔记Temporal Pyramid Network for Action Recognition

1. 论文标题及来源

Temporal Pyramid Network for Action Recognition, CVPR, 2020
下载地址:https://arxiv.org/abs/1903.01038

2. 拟解决问题

不同行为拥有不同的visual tempo,在建模这种visual tempo时,传统方法以多采样率方式从原视频中采样,计算量大,本文就是为了解决这个问题

3. 解决方法

3.1 算法流程

在这里插入图片描述
为了建模visual tempo,作者发现同一个网络的不同深度实际上就已经体现了不同的visual tempo,基于这点,作者在feature level构建时序金字塔网络。该算法的骨干网络是3D ResNet。该网络由四部分组成,首先是骨干网络,该部分主要用来提取特征;接着是Spatial Modulation,该模块主要用来提取语义特征;然后是Temporal Modulation模块,该模块主要用来提取时序特征;然后通过Information Flow模块融合这两个特征,最后预测结果。
a. 从原始视频中间隔τ\tau连续采样64帧
b. 将其输入到骨干网络中提取特征
c. 然后将不同深度的特征构成特征金字塔,输入到spatial modulation
d. 将spatial modulation中输出的特征输入到temporal modulation进行时序下采样
e. 融合两个模块不同深度的所有特征
f. 预测其最终行为

3.2 特征金字塔构成

单深度金字塔:通过骨干网络提取的特征记为Fbase(CTWH)F_{base}(CTWH),在T(temporal)轴上使用M个不同的采样比例(r1,...,rm;r1<r2<...<rmr_1, ..., r_m; r_1 < r_2 < ... < r_m)采样,从而可以得到M个不同的特征,其维度分别为CTr1WHC \frac{T}{r_1} W HCTr2WHC \frac{T}{r_2} W H,… ,CTrMWHC \frac{T}{r_M} W H,通过这种方式可以单深度金字塔。但是该方式可能不能充分利用语义信息。

多深度金字塔:在网络的多层中共采集M个特征,记为{F1,F2,...,FM}\{F_1, F_2, ..., F_M\},每个特征的维度是C1T1W1H1C_1 T_1 W_1 H_1,… ,CMTMWMHMC_M T_M W_M H_M,并且Ci1Ci2Wi1Wi2Hi1Hi2;i1<i2C_{i_1} \ge C_{i_2},W_{i_1} \ge W_{i_2},H_{i_1} \ge H_{i_2}; i_1 < i_2

3.3 spatial modulation

在该模块中,为了对齐来自不同深度的特征,使用相应步长的卷积来对齐size(W和H),并且同时加入了"classification head"来进行强监督,使其能学习到更好的特征

3.4 temporal modulation

在该模块中,引入了一系列的时序下采样因子{αi}i=1M\{\alpha_i\}^M_{i = 1}αi\alpha_i表示对通过spatial modulation更新的第i个特征进行时序下采样,通过parametric sub-net实现。加入下采样因子后,可以控制不同时间尺度的相对区别。

3.5 information flow

在这里插入图片描述
FiF'_i表示融合后的第i个特征,\bigoplus表示对应位置的元素相加,g(F,δ)g(F, \delta)表示沿着T轴下采样,F是特征,δ\delta是下采样因子。通过上述公式即可完成特征融合。具体方式可以见下图

在这里插入图片描述

4. 实验结果

4.1 Kinetics-400

在这里插入图片描述
在这里插入图片描述

4.2 Something-Something

在这里插入图片描述

4.3 Epic-Kitchen

在这里插入图片描述

4.4 消融实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6. 总结

使用骨干网络的不同深度特征,然后形成特征金字塔,将它们输入到空间模块学习语义信息,时序模块学习时序信息,接着融合语义信息和时序信息,最后得到预测结果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章