【視頻理解論文】——SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition(ICCV2019)

【摘要Abstract】

所提出的SlowFast模型由兩部分構成
（1）Slow pathway：以低幀率獲取Spatial信息；
（2）Fast pathway：以高幀率運行，以獲取motion，也就是時序信息
還強調了Fast pathway通過減少了通道的數量/容量，因此是以非常輕量級的形式實現的，且可以學習到非常有用的時序信息
所提出的模型在動作分類以及目標檢測上都取得了非常棒的性能

【一、簡介Introduction】

1. 提出文章的主要依據就是：

傳統對於2D圖片來講，都是以各向同性的形式來處理的比如x,y等等，但是在考慮了時間維度的視頻上就會出問題；
揮手的本體，手一直還是手，本體還在那裏，所以可以用慢的，也就是低幀率來處理，相應的動作，進行的比較快，考慮用高幀率捕獲；
同樣的，人本體還是人，相對於動作來說是靜止的，不在乎你到底是跑還是走還是跳！所以識別人之一累並不需要太快的刷新率，而相反的，你在跑步還是走路這樣的動作就需要相對比較快的刷新率來進行了！

————————————我是華麗的分割線，下面纔是乾貨——————————

2. SlowFast論文的思想：

設計了慢，快兩條路分別獲取:semantic information以及rapidly changing motion

Slow Pathway：capture semantic information that can be given by images or a few sparse frames；
Fast Pathway： capturing rapidly changing motion, by operating at fast refreshing speed and high temporal resolution.（這裏要提一下的是：儘管快路的以高幀率進行刷新，但是其運算成本並不高，而是非常輕量級的，只佔總體運算資源的20%）
FastWay輕量級的原因：其本設計爲：is designed to have fewer channels and weaker ability to process spatial information, while
such information can be provided by the first pathway in a less redundant manner.
快慢兩個分支可以通過不同的temporal rates，使得各在在其空間時序領域上發揮更好的作用！
和傳統的Two-stream方法相比的話，不計算光流->end-to-end 更加高效！
此外，還來自生物機制的啓發，有着一種微妙的聯繫：
（1）Parvocellular (P-cells)：provide fine spatial detail and color, but lower temporal resolution, responding slowly to stimuli
（2）Magnocellular(M-cells)：operate at high temporal frequency and are responsive to fast temporal changes, but not sensitive to spatial detail or color

3. 實驗

分別在：Kinetics-400, Kinetics-600, Charades and AVA datasets四個數據集上進行了效果的驗證，並且結果良好！

【二、相關工作Related Work】

介紹了：
（1）Spatiotemporal filtering：主要還時3DCNN
（2）Optical flow for video recognition：經典的獲取motion的方法，也就是說獲取時序信息的方法，在深度學習方法中，光流被當做輸入信息的另外一種模態，並且獲得了諸多令人滿意的結果，但是！！！（凡事最怕但是），弊端就是需要單獨去計算光流！因而導致不能以端到端的模式訓練模模型

【三、快慢網絡SlowFast Networks】！！！核心~

SlowFast NetWorks可以被理解爲就是同一個網絡結構，不過是用兩種不同幀率來運行罷了
但是之所以強調是兩個pathway是因爲爲了和上面提到的生物機制相互吻合和呼應！

1. Slow pathway

backbone可以使任何的卷積模型！

每秒抽2幀

2.Fast pathwat

高採樣頻率：每秒抽16幀，是slow 支流的8倍，但是通道數確實slow 支流的1/8，因此是輕量級的！
高時域分辨率的特徵：不用temporal pooling或者時間域卷積等操作
低通道容量：是Slow支流的1/8，通道數減少了就可以理解爲更加關注動作而不是形狀和外形信息的獲取,低通道容量也可以被解釋爲表示空間語義的能力較弱。因爲fast路徑通道較少，因此它的空間建模能力應該低於slow路徑。（主要就是降低fast流的空間建模能力）

3. Lateral connections(橫向連接)

橫向連接(在目標檢測的特徵金字塔那篇文章提出，本文參考文獻的32)是一種融合不同層次空間分辨率和語義的常用技術。
（來自論文：T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection.
In Proc. CVPR, 2017.）

在每個“階段”的兩個路徑之間附加一個橫向連接，如下圖：這些連接位於pool1、res2、res3和res4之後（以ResNet爲例）
（當然兩個支流的時間維度並不一樣，因此利用橫向連接對其進行轉換從而使得維度適配，再進行融合！文章裏使用單向連接將fast路徑的特徵融合到Slow通路中，雙向的也嘗試了，但是效果差不多，所以也沒必要咯！）
最後，對每個路徑的輸出執行全局平均池化。然後將兩個合併的特徵向量連接爲完全連接的分類器層的輸入。

4. 具體的實現示例（Instantiations）

首先說明，這個思想是很通用的，可以應用在任何不同的backbones上
一些說明：
（1）時空尺寸：T XS^2;
（2）T： temporal length
（3）S：he height and width of a square spatial crop
具體的來看這張圖：

對上圖進行說明：
橙色：通道容量
綠色：時域分辨率

下面是簡要對比說明：

屬性	Slow pathway	Fast pathway
BackBone	3D ResNet	3D ResNet
T	4（是從時間步幅τ= 16的64幀原始剪輯稀疏地採樣得到的）	32(32說明更高的時域分辨率)
特性	因爲實驗觀察發現在早期層中使用時間卷積會降低準確性。我們認爲這是因爲當物體快速移動且時間步幅大時，在時間感受野內幾乎沒有相關性，除非空間感受野足夠大。例如，對於快速運動的運動員，如果採樣步幅較長，得到的前後兩幀沒什麼相關性、	快速通道在每個區塊都有非退化的時間卷積(時間步長大於1)。這是由於觀察到這條路徑具有很好的時間分辨率，以便時間卷積捕獲詳細的運動。此外，快速通道的設計沒有時間降採樣層

####################################橫向連接——開始####################################
此外，對於**橫向連接（Lateral connections）**的單獨說明：

融合方向：從快速通道向慢速通道融合，需要在融合之前匹配特徵的大小（維度上的匹配，因爲時域分辨率不一致），
具體的實現方法：

慢速通路的特徵形狀表示爲{T，S^2，C}，
快速通路的特徵形狀表示爲{αT，S^2，βC}

（1）Time-to-channel ：我們重塑並將{αT，S^2，βC} 轉換爲{T，S^2，αβC}，意味着我們將所有α（8）幀打包到一幀的通道中，把快通道打包到慢通道里。
（2）Time-strided sampling：我們只是對每個α（8）幀中的一個進行採樣，因此{αT，S^2，βC} 變爲{T，S^2，βC}
（3）Time-strided convolution：我們用2βC輸出通道和stride =α執行5×1^2內核的3D卷積。

最終結果：橫向連接的輸出通過求和或連接融合到慢路徑中。

####################################橫向連接——結束####################################

【四、實驗Experiments】

這裏的實驗分爲兩個部分進行，分別是視頻分類和動作檢測

1. 視頻分類(action classification)

數據集：（1）Kinetics-400, （2）the recent Kinetics-600 （3） Charades
關於訓練：

具體類別	參數或者具體設置
訓練形式	From scratch（隨機初始化，不是fine-tuned）
優化方法	SGD
對於一段視頻採樣	sample a clip(of αT X t(tao) frames) from the full-length video
對於Slow Pathway的輸入	T
對於Fast Pathway的輸入	αT
對於空間維度，需要對輸入圖片操作	randomly crop 224 X 224 pixels from a video或者shorter siderandomly sampled in [256, 320] pixels

【視頻理解論文】——SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition(ICCV2019)

【摘要Abstract】

【一、簡介Introduction】

1. 提出文章的主要依據就是：

2. SlowFast論文的思想：

3. 實驗

【二、相關工作Related Work】

【三、快慢網絡SlowFast Networks】！！！核心~

1. Slow pathway

2.Fast pathwat

3. Lateral connections(橫向連接)

4. 具體的實現示例（Instantiations）

【四、實驗Experiments】

1. 視頻分類(action classification)

2.動作檢測（action detection）

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

【TeXstudio+pkuthss模板】出現引用錯誤的解決方法：I found no \citation commands—while reading file xx.aux

【C++基礎】——指針，引用，指針與引用的簡單區別

Python慢刷《劍指Offer》

【行爲識別綜述準備】

Python使用過程中的一些Tips（用於自己學習的覆盤）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結