論文筆記Temporal Pyramid Network for Action Recognition

1. 論文標題及來源

Temporal Pyramid Network for Action Recognition, CVPR, 2020
下載地址:https://arxiv.org/abs/1903.01038

2. 擬解決問題

不同行爲擁有不同的visual tempo,在建模這種visual tempo時,傳統方法以多採樣率方式從原視頻中採樣,計算量大,本文就是爲了解決這個問題

3. 解決方法

3.1 算法流程

在這裏插入圖片描述
爲了建模visual tempo,作者發現同一個網絡的不同深度實際上就已經體現了不同的visual tempo,基於這點,作者在feature level構建時序金字塔網絡。該算法的骨幹網絡是3D ResNet。該網絡由四部分組成,首先是骨幹網絡,該部分主要用來提取特徵;接着是Spatial Modulation,該模塊主要用來提取語義特徵;然後是Temporal Modulation模塊,該模塊主要用來提取時序特徵;然後通過Information Flow模塊融合這兩個特徵,最後預測結果。
a. 從原始視頻中間隔τ\tau連續採樣64幀
b. 將其輸入到骨幹網絡中提取特徵
c. 然後將不同深度的特徵構成特徵金字塔,輸入到spatial modulation
d. 將spatial modulation中輸出的特徵輸入到temporal modulation進行時序下采樣
e. 融合兩個模塊不同深度的所有特徵
f. 預測其最終行爲

3.2 特徵金字塔構成

單深度金字塔:通過骨幹網絡提取的特徵記爲Fbase(CTWH)F_{base}(CTWH),在T(temporal)軸上使用M個不同的採樣比例(r1,...,rm;r1<r2<...<rmr_1, ..., r_m; r_1 < r_2 < ... < r_m)採樣,從而可以得到M個不同的特徵,其維度分別爲CTr1WHC \frac{T}{r_1} W HCTr2WHC \frac{T}{r_2} W H,… ,CTrMWHC \frac{T}{r_M} W H,通過這種方式可以單深度金字塔。但是該方式可能不能充分利用語義信息。

多深度金字塔:在網絡的多層中共採集M個特徵,記爲{F1,F2,...,FM}\{F_1, F_2, ..., F_M\},每個特徵的維度是C1T1W1H1C_1 T_1 W_1 H_1,… ,CMTMWMHMC_M T_M W_M H_M,並且Ci1Ci2Wi1Wi2Hi1Hi2;i1<i2C_{i_1} \ge C_{i_2},W_{i_1} \ge W_{i_2},H_{i_1} \ge H_{i_2}; i_1 < i_2

3.3 spatial modulation

在該模塊中,爲了對齊來自不同深度的特徵,使用相應步長的卷積來對齊size(W和H),並且同時加入了"classification head"來進行強監督,使其能學習到更好的特徵

3.4 temporal modulation

在該模塊中,引入了一系列的時序下采樣因子{αi}i=1M\{\alpha_i\}^M_{i = 1}αi\alpha_i表示對通過spatial modulation更新的第i個特徵進行時序下采樣,通過parametric sub-net實現。加入下采樣因子後,可以控制不同時間尺度的相對區別。

3.5 information flow

在這裏插入圖片描述
FiF'_i表示融合後的第i個特徵,\bigoplus表示對應位置的元素相加,g(F,δ)g(F, \delta)表示沿着T軸下采樣,F是特徵,δ\delta是下采樣因子。通過上述公式即可完成特徵融合。具體方式可以見下圖

在這裏插入圖片描述

4. 實驗結果

4.1 Kinetics-400

在這裏插入圖片描述
在這裏插入圖片描述

4.2 Something-Something

在這裏插入圖片描述

4.3 Epic-Kitchen

在這裏插入圖片描述

4.4 消融實驗

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

6. 總結

使用骨幹網絡的不同深度特徵,然後形成特徵金字塔,將它們輸入到空間模塊學習語義信息,時序模塊學習時序信息,接着融合語義信息和時序信息,最後得到預測結果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章