【視頻理解論文】——SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition(ICCV2019)

在這裏插入圖片描述

【摘要Abstract】

  • 所提出的SlowFast模型由兩部分構成
    (1)Slow pathway:以低幀率獲取Spatial信息;
    (2)Fast pathway: 以高幀率運行,以獲取motion,也就是時序信息
  • 還強調了Fast pathway通過減少了通道的數量/容量,因此是以非常輕量級的形式實現的,且可以學習到非常有用的時序信息
  • 所提出的模型在動作分類以及目標檢測上都取得了非常棒的性能

【一、簡介Introduction】

1. 提出文章的主要依據就是:

  • 傳統對於2D圖片來講,都是以各向同性的形式來處理的比如x,y等等,但是在考慮了時間維度的視頻上就會出問題;
  • 揮手的本體,手一直還是手,本體還在那裏,所以可以用慢的,也就是低幀率來處理,相應的動作,進行的比較快,考慮用高幀率捕獲;
  • 同樣的,人本體還是人,相對於動作來說是靜止的,不在乎你到底是跑還是走還是跳!所以識別人之一累並不需要太快的刷新率,而相反的,你在跑步還是走路這樣的動作就需要相對比較快的刷新率來進行了!

————————————我是華麗的分割線,下面纔是乾貨——————————

2. SlowFast論文的思想:

設計了慢,快兩條路分別獲取:semantic information以及rapidly changing motion

  • Slow Pathway:capture semantic information that can be given by images or a few sparse frames;

  • Fast Pathway: capturing rapidly changing motion, by operating at fast refreshing speed and high temporal resolution.(這裏要提一下的是:儘管快路的以高幀率進行刷新,但是其運算成本並不高,而是非常輕量級的,只佔總體運算資源的20%

  • FastWay輕量級的原因:其本設計爲:is designed to have fewer channels and weaker ability to process spatial information, while
    such information can be provided by the first pathway in a less redundant manner.

  • 快慢兩個分支可以通過不同的temporal rates,使得各在在其空間時序領域上發揮更好的作用!

  • 和傳統的Two-stream方法相比的話,不計算光流->end-to-end 更加高效!

  • 此外,還來自生物機制的啓發,有着一種微妙的聯繫:
    (1)Parvocellular (P-cells):provide fine spatial detail and color, but lower temporal resolution, responding slowly to stimuli
    (2)Magnocellular(M-cells):operate at high temporal frequency and are responsive to fast temporal changes, but not sensitive to spatial detail or color

3. 實驗

  • 分別在:Kinetics-400, Kinetics-600, Charades and AVA datasets四個數據集上進行了效果的驗證,並且結果良好!

【二、相關工作Related Work】

介紹了:
(1)Spatiotemporal filtering:主要還時3DCNN
(2)Optical flow for video recognition:經典的獲取motion的方法,也就是說獲取時序信息的方法,在深度學習方法中,光流被當做輸入信息的另外一種模態,並且獲得了諸多令人滿意的結果,但是!!!(凡事最怕但是),弊端就是需要單獨去計算光流!因而導致不能以端到端的模式訓練模模型

【三、快慢網絡SlowFast Networks】!!!核心~

SlowFast NetWorks可以被理解爲就是同一個網絡結構,不過是用兩種不同幀率來運行罷了
但是之所以強調是兩個pathway是因爲爲了和上面提到的生物機制相互吻合和呼應!

1. Slow pathway

backbone可以使任何的卷積模型!

  • 每秒抽2幀

2.Fast pathwat

  • 高採樣頻率:每秒抽16幀,是slow 支流的8倍,但是通道數確實slow 支流的1/8,因此是輕量級的!
  • 高時域分辨率的特徵:不用temporal pooling或者時間域卷積等操作
  • 低通道容量:是Slow支流的1/8,通道數減少了就可以理解爲更加關注動作而不是形狀和外形信息的獲取,低通道容量也可以被解釋爲表示空間語義的能力較弱。因爲fast路徑通道較少,因此它的空間建模能力應該低於slow路徑。(主要就是降低fast流的空間建模能力)

3. Lateral connections(橫向連接)

橫向連接(在目標檢測的特徵金字塔那篇文章提出,本文參考文獻的32)是一種融合不同層次空間分辨率和語義的常用技術。
(來自論文:T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection.
In Proc. CVPR, 2017.)

  • 在每個“階段”的兩個路徑之間附加一個橫向連接,如下圖:這些連接位於pool1、res2、res3和res4之後(以ResNet爲例)
    (當然兩個支流的時間維度並不一樣,因此利用橫向連接對其進行轉換從而使得維度適配,再進行融合!文章裏使用單向連接將fast路徑的特徵融合到Slow通路中, 雙向的也嘗試了,但是效果差不多,所以也沒必要咯!)
    在這裏插入圖片描述
  • 最後,對每個路徑的輸出執行全局平均池化。 然後將兩個合併的特徵向量連接爲完全連接的分類器層的輸入。

4. 具體的實現示例(Instantiations)

  • 首先說明,這個思想是很通用的,可以應用在任何不同的backbones上
  • 一些說明:
    (1)時空尺寸:T XS^2;
    (2)T: temporal length
    (3)S:he height and width of a square spatial crop
  • 具體的來看這張圖:
    在這裏插入圖片描述
    對上圖進行說明:
    橙色:通道容量
    綠色:時域分辨率

下面是簡要對比說明:

屬性 Slow pathway Fast pathway
BackBone 3D ResNet 3D ResNet
T 4(是從時間步幅τ= 16的64幀原始剪輯稀疏地採樣得到的) 32(32說明更高的時域分辨率)
特性 因爲實驗觀察發現在早期層中使用時間卷積會降低準確性。我們認爲這是因爲當物體快速移動且時間步幅大時,在時間感受野內幾乎沒有相關性,除非空間感受野足夠大。例如,對於快速運動的運動員,如果採樣步幅較長,得到的前後兩幀沒什麼相關性、 快速通道在每個區塊都有非退化的時間卷積(時間步長大於1)。這是由於觀察到這條路徑具有很好的時間分辨率,以便時間卷積捕獲詳細的運動。此外,快速通道的設計沒有時間降採樣層

####################################橫向連接——開始####################################
此外,對於**橫向連接(Lateral connections)**的單獨說明:

  • 融合方向:從快速通道向慢速通道融合,需要在融合之前匹配特徵的大小(維度上的匹配,因爲時域分辨率不一致),
    具體的實現方法:
慢速通路的特徵形狀表示爲{T,S^2,C},
快速通路的特徵形狀表示爲{αT,S^2,βC}

(1)Time-to-channel :我們重塑並將{αT,S^2,βC} 轉換爲{T,S^2,αβC},意味着我們將所有α(8)幀打包到一幀的通道中,把快通道打包到慢通道里。
(2)Time-strided sampling:我們只是對每個α(8)幀中的一個進行採樣,因此{αT,S^2,βC} 變爲{T,S^2,βC}
(3)Time-strided convolution:我們用2βC輸出通道和stride =α執行5×1^2內核的3D卷積。

最終結果:橫向連接的輸出通過求和或連接融合到慢路徑中。

####################################橫向連接——結束####################################

【四、實驗Experiments】

這裏的實驗分爲兩個部分進行,分別是視頻分類動作檢測

1. 視頻分類(action classification)

  • 數據集:(1)Kinetics-400, (2)the recent Kinetics-600 (3) Charades
  • 關於訓練:
具體類別 參數或者具體設置
訓練形式 From scratch(隨機初始化,不是fine-tuned)
優化方法 SGD
對於一段視頻採樣 sample a clip(of αT X t(tao) frames) from the full-length video
對於Slow Pathway的輸入 T
對於Fast Pathway的輸入 αT
對於空間維度,需要對輸入圖片操作 randomly crop 224 X 224 pixels from a video或者shorter siderandomly sampled in [256, 320] pixels

2.動作檢測(action detection)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章