1. 標題及來源

SlowFast Networks for Video Recognition, ICCV, 2019.
論文下載鏈接：https://arxiv.org/pdf/1812.03982.pdf

2. 擬解決的問題

之前方法中平等對待語義信息和時序信息

3. 解決方法

通過研究人的視網膜神經細胞組成時發現，其中有80%左右的細胞用來獲取語義信息，例如外觀，顏色，紋理等；約15%-20%的細胞用來獲取時序信息，它們的研究小組根據這一發現提出空域特徵和時域特徵不能平等對待。

3.1 算法流程

該算法網絡結構如上圖所示。該算法由兩個分支組成，上面一個分支稱爲slow分支，具有更多的channel，更少的T(幀)，該分支主要用來提取空域特徵；下面一個分支稱爲fast分支，具有更少的channel(slow分支中channel數的1/8)，更多的T(幀, slow分支中T數的8倍)，該分支主要用來提取時序信息。該算法的backbone是3D ResNet，具體網絡層如下所示。

該算法流程如下：
a. 從原始視頻中隨機採集 $\alpha T \times \tau$ 幀，其中 $\alpha$ 是一個比例係數，用來控制slow分支和fast分支所使用幀數的比例，原文中取8；T表示slow分支中所使用的總幀數，原文中取4； $\tau$ 表示採樣間隔，原文中取2。通過這種方式共採樣64幀
b. 以低幀率採樣(間隔 $\alpha \times \tau$ )方式從採樣的視頻中採集4幀送入slow分支，提取空域特徵；以高幀率採樣(間隔 $\tau$ )方式從採樣的64幀圖片中採集32幀輸入fast分支，提取時序特徵
c. 將fast分支中提取的時序特徵( $pool_1, res_2, res_3, res_4$ )通過橫向連接(lateral connections)與空域特徵融合
d. 最後通過FC分類，給出預測的行爲
橫向連接可以通過reshape方式(T-sample)或者每 $\alpha$ 幀採集一幀特徵(TtoC)或者通過3D卷積方式(T-conv)使其能與slow分支的T軸對應，然後通過Concat或者sum即可融合時序特徵