《Two-Stream Convolutional Networks for Action Recognition in Videos》論文筆記

這篇論文是2015年發表在NIPS上的一篇文章,利用雙流卷積神經網爲視頻中的行爲識別提供類一種新的思路。
下面是個人做的總結和部分翻譯。

論文貢獻

  • 提出了一個結合時間和空間網絡的雙流卷及網絡構架。
  • 證明了利用多幀密集的光流場的卷及網絡即使在數據較少時也能表現優異的性能。
  • 展示了應用於兩個不同的行爲分類的數據集的多任務學習能夠用來增加訓練數據量並且能夠提高在兩個數據集上的性能。

介紹

  • 李飛飛提出通過堆疊視頻幀作爲網絡的輸入,結果比幾種代表性效果最好的人工提取特徵的方法還要差。
  • 該論文研究了一種基於兩個獨立的識別流(時間域和空間域)的不同的網絡結構,最後將其融合起來
    • 空間流基於靜態視頻幀執行行爲識別
    • 時間流基於動作的稠密光流來進行識別

相關工作

基於局部時空特徵的淺層高維編碼

檢測稀疏的時空興趣點,然後使用局部時空特徵描述:定向梯度直方圖(HOG)[7]和光流直方圖(HOF)。 這些特徵然後被編碼成袋狀特徵(BoF)表示,其被彙集在多個時空網格(類似於空間金字塔池)並且與SVM分類器組合。 (後續工作證明稠密興趣點效果更好)

其他的寫的有點雜,沒有細看。

用於視頻識別的雙流體系構架

視頻自然可以分解爲空間和時間分量。 空間部分以單個框架外觀的形式攜帶有關視頻中描繪的場景和對象的信息。 時間部分以幀的運動形式傳達觀察者(相機)和物體的運動。作者根據視頻的特性,設計了一個雙流卷積網絡構架,每個流都使用深度ConvNet實現,softmax評分通過後期融合進行組合。 我們考慮兩種融合方法:平均和訓練多級線性支持向量機[6],將堆積的L2歸一化的softmax分數作爲特徵。

空間流卷積網絡在單個視頻幀上運行,有效地從靜止圖像執行動作識別。 靜態外觀本身是一個有用的線索,因爲某些動作與特定對象強烈關聯。 事實上,正如將在第四節中所顯示的那樣。 如圖6所示,來自靜止幀(空間識別流)的動作分類本身具有相當的競爭力。 由於空間ConvNet本質上是一種圖像分類體系結構,因此我們可以基於大規模圖像識別方法的最新進展[15],並在大型圖像分類數據集(如ImageNet挑戰數據集)上對網絡進行預訓練。 詳細信息請參見Sect。 接下來,我們描述時間流卷及網絡,它利用運動並顯着提高準確性。

光流卷積網絡

光流卷積網絡的輸入是通過在幾個連續幀之間堆疊光流位移場而形成的。光流特徵使識別更加簡單,因爲不用隱式評估動作。

(a)(b)是連續視頻幀,並且用青色矩形畫出了手的部分。(c)畫出了區域裏面的稠密光流(d)位移矢量的水平分量,(強度較高的表示的爲正值,強度較低的表示爲負值)(e)表示的是垂直分量

卷積網絡的輸入配置

光流堆疊
密集的光流可以看作是一組位移矢量場dx 在連續幀t和t+1之間,dt(u,v) 表示在t幀的矢量點(u,v),然後將點移到t+1幀的對應位置。爲了在一系列幀數上表示運動,我們將L個連續幀的流動通道dtx,y 疊加起來,總共形成2L個通道。令w和h爲視頻的寬度和高度,對於任意幀t的卷積網絡的輸入量ItRwh2L 構造如下:

對於任意點(u,v),信道It(u,v,c) ; c = [1; 2L]通過一系列的L幀對該運動進行編碼(如圖3左側所示)。
軌跡堆疊(Trajectory stacking)
由基於軌跡的描述符[29]啓發的另一種運動表示法,將沿相同位置在多個幀上採樣的光流替換爲沿着運動軌跡採樣的流。 在這種情況下,對應於幀t的輸入量It 採用以下形式:

其中,pk 是沿着軌跡的第k個點,其起始於幀τ中的位置(u,v)並且由以下遞歸關係定義:

與輸入體積表示(1)相比,輸入體積(2)在通道It(u,v,c) 處將位移矢量存儲在位置(u,v)處,軌跡(如圖3右圖所示)。

雙向光流(Bi-directional optical flow)
光流表示(1)和(2)處理前向光流,即第t幀的位移場dt 指定其像素的位置在下面幀t + 1。考慮擴展到雙向光流是很自然的,這可以是通過在相反方向上計算另外一組位移場而獲得。 然後,我們通過在幀τ與τ+ L /22之間堆疊L /2個正向流並且在幀τ-L /2與τ之間堆疊L/2個反向流來構建輸入體積It 。 輸入It 因此具有與之前相同的信道數量(2L)。這兩種方法都可以用來表示流量。

平均流量減法(Mean flow subtraction)
執行網絡的零中心輸入通常是有益的,因爲它允許模型更好地利用整流非線性。在我們的例子中,位移矢量場分量既可以取正值也可以取負值,並且自然是居中的,因爲在各種各樣的運動中,一個方向上的運動與另一個運動中的運動可能相反。 然而,給定一對框架,它們之間的光流可以由特定的位移來控制,例如, 由相機移動引起的。 攝像機運動補償的重要性先前在[10,26]中被強調過,其中全局運動分量被估計並從密集流中減去。 在我們的例子中,我們考慮一個更簡單的方法:從每個位移場d我們減去它的平均向量。

構架(Architecture)
以上我們已經描述了將多個光流位移場組合成單個體積ItRwh2L 的不同方式。 考慮到卷積網絡需要固定尺寸的輸入,我們從It 採樣一個224×224×2L的子量,並將其作爲輸入傳送給網絡。 隱藏層的配置與空間網絡中的配置基本保持一致,如圖1所示。測試與空間卷積網絡相似。

多任務學習(Multi-task learning)

由於視頻分類數據集的規模很小,所以論文將兩個數據集合併成一個數據集進行訓練。

具體細節

ConvNets配置:它對應着CNN-M-2048結構,所有的隱含權重層使用ReLu激活函數;max-pooling採用3×3空間大小,步長爲2;時域和空域的ConvNet唯一的差別在於我們移除了從最後的第二個歸一化層以減少內存需求。

訓練:訓練步驟由AlexNet調整而來,對於時域和空域是同樣的。網絡權重通過動量爲0.9的批處理隨機梯度下降算法學習得到。每一次迭代,小尺寸的256個樣本通過256個訓練視頻(從不同類中均勻抽樣)抽樣,每一個視頻中一個單幀視頻被隨機獲取。

  • 在空域訓練中,224×224子圖像從選擇的幀中隨機裁剪;然後採用隨機的水平翻轉和RGB顏色抖動。視頻預先調整大小,所以幀的最小尺寸等於256。
  • 在時域訓練中,我們計算一個光流輸入流I,固定尺寸224×224×2L的輸入隨機裁剪和翻轉。學習速率初始化設置爲10−2,之後根據固定的步驟下降,所有訓練集保持相同。

測試:給定一個視頻,抽樣得到固定數目(本實驗25)的幀,對於每一個視頻幀,我們可以通過裁剪、翻轉視頻幀四個角和中心區域獲得10個ConvNets。整個視頻的類別得分可以通過平均抽樣視頻的得分得到。

實驗評估

只截了一張和其他方法的對比結果,其實論文還做了其他實驗進行對比

結論

我們提出了一個具有競爭性表現的深度視頻分類模型,該模型包含基於卷積網絡的獨立空間和時間識別流。 並且利用光流特徵訓練時間流比例用原始幀堆疊的效果更好。正如我們已經表明的那樣,額外的數據訓練對於我們的時間卷積網絡是有利的,因此我們計劃在大型視頻數據集上訓練它,例如最近發佈的[14]集合。 目前最先進的淺層表示[ 26 ]仍然存在一些重要的成分,這在我們目前的體系結構中是缺失的。最突出的一個是局部特徵彙集在時空管,在軌跡中心。即使輸入(2)捕獲沿着軌跡的光流,我們的網絡中的空間匯聚並不考慮軌跡。另一個潛在的改進領域是攝像機運動的明確處理,在我們的例子中,這是通過平均位移相減來補償的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章