論文筆記Temporal Pyramid Network for Action Recognition

原創

2020-04-27 21:51

論文筆記Temporal Pyramid Network for Action Recognition

4. 實驗結果

6. 總結

1. 論文標題及來源

Temporal Pyramid Network for Action Recognition, CVPR, 2020
下載地址：https://arxiv.org/abs/1903.01038

2. 擬解決問題

不同行爲擁有不同的visual tempo，在建模這種visual tempo時，傳統方法以多採樣率方式從原視頻中採樣，計算量大，本文就是爲了解決這個問題

3. 解決方法

3.1 算法流程

爲了建模visual tempo，作者發現同一個網絡的不同深度實際上就已經體現了不同的visual tempo，基於這點，作者在feature level構建時序金字塔網絡。該算法的骨幹網絡是3D ResNet。該網絡由四部分組成，首先是骨幹網絡，該部分主要用來提取特徵；接着是Spatial Modulation，該模塊主要用來提取語義特徵；然後是Temporal Modulation模塊，該模塊主要用來提取時序特徵；然後通過Information Flow模塊融合這兩個特徵，最後預測結果。
a. 從原始視頻中間隔 $\tau$ 連續採樣64幀
b. 將其輸入到骨幹網絡中提取特徵
c. 然後將不同深度的特徵構成特徵金字塔，輸入到spatial modulation
d. 將spatial modulation中輸出的特徵輸入到temporal modulation進行時序下采樣
e. 融合兩個模塊不同深度的所有特徵
f. 預測其最終行爲

3.2 特徵金字塔構成

單深度金字塔：通過骨幹網絡提取的特徵記爲 $F_{base}(CTWH)$ ，在T(temporal)軸上使用M個不同的採樣比例( $r_1, ..., r_m; r_1 < r_2 < ... < r_m$ )採樣，從而可以得到M個不同的特徵，其維度分別爲 $C \frac{T}{r_1} W H$ ， $C \frac{T}{r_2} W H$ ，… ， $C \frac{T}{r_M} W H$ ，通過這種方式可以單深度金字塔。但是該方式可能不能充分利用語義信息。

多深度金字塔：在網絡的多層中共採集M個特徵，記爲 $\{F_1, F_2, ..., F_M\}$ ，每個特徵的維度是 $C_1 T_1 W_1 H_1$ ，… ， $C_M T_M W_M H_M$ ，並且 $C_{i_1} \ge C_{i_2}，W_{i_1} \ge W_{i_2}，H_{i_1} \ge H_{i_2}; i_1 < i_2$

3.3 spatial modulation

在該模塊中，爲了對齊來自不同深度的特徵，使用相應步長的卷積來對齊size(W和H)，並且同時加入了"classification head"來進行強監督，使其能學習到更好的特徵

3.4 temporal modulation

在該模塊中，引入了一系列的時序下采樣因子 $\{\alpha_i\}^M_{i = 1}$ ， $\alpha_i$ 表示對通過spatial modulation更新的第i個特徵進行時序下采樣，通過parametric sub-net實現。加入下采樣因子後，可以控制不同時間尺度的相對區別。

3.5 information flow

$F'_i$ 表示融合後的第i個特徵， $\bigoplus$ 表示對應位置的元素相加， $g(F, \delta)$ 表示沿着T軸下采樣，F是特徵， $\delta$ 是下采樣因子。通過上述公式即可完成特徵融合。具體方式可以見下圖

4. 實驗結果

4.1 Kinetics-400

4.2 Something-Something

4.3 Epic-Kitchen

4.4 消融實驗

6. 總結

使用骨幹網絡的不同深度特徵，然後形成特徵金字塔，將它們輸入到空間模塊學習語義信息，時序模塊學習時序信息，接着融合語義信息和時序信息，最後得到預測結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文筆記Temporal Pyramid Network for Action Recognition

論文筆記Temporal Pyramid Network for Action Recognition

1. 論文標題及來源

2. 擬解決問題

3. 解決方法

3.1 算法流程

3.2 特徵金字塔構成

3.3 spatial modulation

3.4 temporal modulation

3.5 information flow

4. 實驗結果

4.1 Kinetics-400

4.2 Something-Something

4.3 Epic-Kitchen

4.4 消融實驗

6. 總結

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

python中reshape後數據排列方式

論文筆記Visualizing and understanding convolutional networks

論文筆記Deep visual tracking: Review and experimental comparison

矩陣論(一)——建立基本概念

論文筆記D3S – A Discriminative Single Shot Segmentation Tracker

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結