論文筆記Temporal Pyramid Network for Action Recognition
1. 論文標題及來源
Temporal Pyramid Network for Action Recognition, CVPR, 2020
下載地址:https://arxiv.org/abs/1903.01038
2. 擬解決問題
不同行爲擁有不同的visual tempo,在建模這種visual tempo時,傳統方法以多採樣率方式從原視頻中採樣,計算量大,本文就是爲了解決這個問題
3. 解決方法
3.1 算法流程
爲了建模visual tempo,作者發現同一個網絡的不同深度實際上就已經體現了不同的visual tempo,基於這點,作者在feature level構建時序金字塔網絡。該算法的骨幹網絡是3D ResNet。該網絡由四部分組成,首先是骨幹網絡,該部分主要用來提取特徵;接着是Spatial Modulation,該模塊主要用來提取語義特徵;然後是Temporal Modulation模塊,該模塊主要用來提取時序特徵;然後通過Information Flow模塊融合這兩個特徵,最後預測結果。
a. 從原始視頻中間隔連續採樣64幀
b. 將其輸入到骨幹網絡中提取特徵
c. 然後將不同深度的特徵構成特徵金字塔,輸入到spatial modulation
d. 將spatial modulation中輸出的特徵輸入到temporal modulation進行時序下采樣
e. 融合兩個模塊不同深度的所有特徵
f. 預測其最終行爲
3.2 特徵金字塔構成
單深度金字塔:通過骨幹網絡提取的特徵記爲,在T(temporal)軸上使用M個不同的採樣比例()採樣,從而可以得到M個不同的特徵,其維度分別爲,,… ,,通過這種方式可以單深度金字塔。但是該方式可能不能充分利用語義信息。
多深度金字塔:在網絡的多層中共採集M個特徵,記爲,每個特徵的維度是,… ,,並且
3.3 spatial modulation
在該模塊中,爲了對齊來自不同深度的特徵,使用相應步長的卷積來對齊size(W和H),並且同時加入了"classification head"來進行強監督,使其能學習到更好的特徵
3.4 temporal modulation
在該模塊中,引入了一系列的時序下采樣因子,表示對通過spatial modulation更新的第i個特徵進行時序下采樣,通過parametric sub-net實現。加入下采樣因子後,可以控制不同時間尺度的相對區別。
3.5 information flow
表示融合後的第i個特徵,表示對應位置的元素相加,表示沿着T軸下采樣,F是特徵,是下采樣因子。通過上述公式即可完成特徵融合。具體方式可以見下圖
4. 實驗結果
4.1 Kinetics-400
4.2 Something-Something
4.3 Epic-Kitchen
4.4 消融實驗
6. 總結
使用骨幹網絡的不同深度特徵,然後形成特徵金字塔,將它們輸入到空間模塊學習語義信息,時序模塊學習時序信息,接着融合語義信息和時序信息,最後得到預測結果