论文笔记Temporal Pyramid Network for Action Recognition

原創

2020-04-27 21:51

论文笔记Temporal Pyramid Network for Action Recognition

4. 实验结果

6. 总结

1. 论文标题及来源

Temporal Pyramid Network for Action Recognition, CVPR, 2020
下载地址：https://arxiv.org/abs/1903.01038

2. 拟解决问题

不同行为拥有不同的visual tempo，在建模这种visual tempo时，传统方法以多采样率方式从原视频中采样，计算量大，本文就是为了解决这个问题

3. 解决方法

3.1 算法流程

为了建模visual tempo，作者发现同一个网络的不同深度实际上就已经体现了不同的visual tempo，基于这点，作者在feature level构建时序金字塔网络。该算法的骨干网络是3D ResNet。该网络由四部分组成，首先是骨干网络，该部分主要用来提取特征；接着是Spatial Modulation，该模块主要用来提取语义特征；然后是Temporal Modulation模块，该模块主要用来提取时序特征；然后通过Information Flow模块融合这两个特征，最后预测结果。
a. 从原始视频中间隔 $\tau$ 连续采样64帧
b. 将其输入到骨干网络中提取特征
c. 然后将不同深度的特征构成特征金字塔，输入到spatial modulation
d. 将spatial modulation中输出的特征输入到temporal modulation进行时序下采样
e. 融合两个模块不同深度的所有特征
f. 预测其最终行为

3.2 特征金字塔构成

单深度金字塔：通过骨干网络提取的特征记为 $F_{base}(CTWH)$ ，在T(temporal)轴上使用M个不同的采样比例( $r_1, ..., r_m; r_1 < r_2 < ... < r_m$ )采样，从而可以得到M个不同的特征，其维度分别为 $C \frac{T}{r_1} W H$ ， $C \frac{T}{r_2} W H$ ，… ， $C \frac{T}{r_M} W H$ ，通过这种方式可以单深度金字塔。但是该方式可能不能充分利用语义信息。

多深度金字塔：在网络的多层中共采集M个特征，记为 $\{F_1, F_2, ..., F_M\}$ ，每个特征的维度是 $C_1 T_1 W_1 H_1$ ，… ， $C_M T_M W_M H_M$ ，并且 $C_{i_1} \ge C_{i_2}，W_{i_1} \ge W_{i_2}，H_{i_1} \ge H_{i_2}; i_1 < i_2$

3.3 spatial modulation

在该模块中，为了对齐来自不同深度的特征，使用相应步长的卷积来对齐size(W和H)，并且同时加入了"classification head"来进行强监督，使其能学习到更好的特征

3.4 temporal modulation

在该模块中，引入了一系列的时序下采样因子 $\{\alpha_i\}^M_{i = 1}$ ， $\alpha_i$ 表示对通过spatial modulation更新的第i个特征进行时序下采样，通过parametric sub-net实现。加入下采样因子后，可以控制不同时间尺度的相对区别。

3.5 information flow

$F'_i$ 表示融合后的第i个特征， $\bigoplus$ 表示对应位置的元素相加， $g(F, \delta)$ 表示沿着T轴下采样，F是特征， $\delta$ 是下采样因子。通过上述公式即可完成特征融合。具体方式可以见下图

4. 实验结果

4.1 Kinetics-400

4.2 Something-Something

4.3 Epic-Kitchen

4.4 消融实验

6. 总结

使用骨干网络的不同深度特征，然后形成特征金字塔，将它们输入到空间模块学习语义信息，时序模块学习时序信息，接着融合语义信息和时序信息，最后得到预测结果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

论文笔记Temporal Pyramid Network for Action Recognition

论文笔记Temporal Pyramid Network for Action Recognition

1. 论文标题及来源

2. 拟解决问题

3. 解决方法

3.1 算法流程

3.2 特征金字塔构成

3.3 spatial modulation

3.4 temporal modulation

3.5 information flow

4. 实验结果

4.1 Kinetics-400

4.2 Something-Something

4.3 Epic-Kitchen

4.4 消融实验

6. 总结

python中reshape後數據排列方式

論文筆記Visualizing and understanding convolutional networks

論文筆記Deep visual tracking: Review and experimental comparison

矩陣論(一)——建立基本概念

論文筆記D3S – A Discriminative Single Shot Segmentation Tracker

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結