CV論文筆記(二) Large-scale Video Classification with Convolutional Neural Networks

參考論文

A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei,Large-scale Video Classification with Convolutional Neural Networks, CVPR 2014.

內容介紹

Abstract
研究多種方法來擴展CNN在時域上的連通性,以利用局部時空信息
提出一個多分辨率,新穎的框架的方式來加快訓練(計算效率)
作者提出的模型與單幀模型相比性能有了顯著提升,爲此作者進一步研究了其中表現最佳的模型的泛化能力,即通過在UCF-101數據集上重新訓練頂層,相比基準模型性能顯著改善

1. Introduction
背景
網絡上無處不在的圖像和視頻激勵我們尋找一種算法來分析它們的語義和內容,來進行不同應用,如檢索和總結。
從實際的角度來看,目前沒有符合現有圖像數據集的規模和多樣性的視頻分類基準,因爲視頻顯然難以收集,註釋和存儲。
爲此作者整理收集了一個新的數據集名爲Sports-1M,1 million You Tube videos  487 classes of sports.
作者認爲從模型來看存在三個問題:
CNN架構用什麼時序聯繫模式才能對視頻中的局部運動信息發揮出它的最大優勢。
額外的運動信息是如何影響一個CNN的預測以及它對整體的性能有多大的提升。
作者通過設計多個不同的架構用實驗的方式來研究這些問題
作者認爲從計算來看,CNNs要求一個長期的訓練來優化數百萬的參數,如果在時間上擴展架構的連通性,問題會變得更加複雜。
對此作者提出一種有效的方法來加速CNN運行性能:修改架構以包含兩個獨立的處理流
context stream:學習低分辨率幀的特徵;fovea stream:只在高分辨率幀的中間部分操作
作者觀察到這種方式由於輸入的維數減少,網絡運行時性能增加2 - 4倍,同時保持分類精度。

爲了瞭解自己框架在類似數據集上的通用性,應用網絡到UCF-101上,得到了最先進的效果

2. Related Work
視頻分類的標準化方式主要有三個階段:
首先,描述視頻區域的局部視覺特徵被密集地提取或者在稀疏的興趣點集中提取
接下來,這些特徵被組合成固定大小的視頻級別的描述:
其中一個主流的方式是使用學習的k-means字典量化所有特徵and在視頻的持續時間內將視覺詞累積到變化的時空位置和範圍的直方圖中
最後,對所得到的“詞包”表示進行分類器訓練來區分感興趣的視頻類別
注:以上指的是利用傳統圖像處理和機器學習算法
卷積神經網絡是一種具有生物學意義的深層次學習模型,用一個從原始像素值到分類器輸出端到端的單個神經網絡來代替所有三個階段。
圖像的空間結構明確有利於通過層之間的限制連接(局部濾波器),參數共享(卷積)和特殊的局部不變性構建神經元(最大合併:max pooling)來進行正則化。因此,這些架構有效地將所需的工程從特徵設計和累積策略轉移到網絡連接結構和超參數選擇的設計。

3. Models
每個剪輯在時間上包含幾個連續的幀,在時間維度上擴展網絡的連接性,以學習時空特徵。
作者描述以下三種廣泛的連接模式類別(Early Fusion, Late Fusion and Slow Fusion)

3.1 Time Information Fusion in CNNs
Early Fusion
通過修改第一個層卷積濾波器在時間上延伸,早期融合擴展在像素級別上立即整合了整個時間窗口中的信息。
對單幀模型上第一個卷積層的濾波器進行修改,將尺寸擴展爲11 × 11 × 3 × T
對像素數據的早期和直接連接使網絡能夠精確地檢測出局部運動方向和速度。
Late Fusion
該模型放置兩個單幀網絡在時序上間隔一段距離來實現,然後在第一個全連接層合併兩個信息流,共享參數的距離爲15幀
單個的單幀網絡都不能檢測到任何運動,但是第一個全連接層可以通過比較兩個網絡的輸出來計算全局運動特性。
Slow Fusion
該模型可以理解爲在上述兩個模型中做了一個平衡混合,使得更高層在時間和空間維度上逐漸獲取更多的全局信息
clip=10,第一層卷積的T=4,stride=2故產生4個response;第二次卷積的T=2,stride=2故第三個卷積層得到了所有信息

3.2 Multiresolution CNNs
Fovea and context streams
若網絡的輸入是一個178 × 178每幀的視頻剪輯,context streams接收下采樣幀,是原始分辨率的一半
fovea streams接收在原始分辨率的89 × 89的中心區域,這樣一來輸入的維度總數減半
這種設計是考慮到在線的視頻感興趣的對象常常佔據中心區域
Architecture changes
去掉最後一個pooling層,確保終止層大小 7 × 7 × 256

3.3 Learning
Optimization

Data augmentation and preprocessing
首先裁剪中心區域到固定大小然後隨機採樣指定大小的區域,最後以50%的概率水平地隨機翻轉圖像
作爲預處理的最後一步,我們從原始像素值中減去常數值117,這是我們圖像中所有像素平均值的近似值。

4. Results
4.1 Experiments on Sports-1M
Dataset
1 million YouTube videos with 487 classes
爲了瞭解重複問題程度,作者對所有視頻使用幀級幾乎重複查找算法並確定只有1755個視頻(100萬)中包含了相當一部分幾乎重複的幀。
而且由於作者只在每個視頻中使用最多100個半秒剪輯,而我們的視頻平均長度爲5分36秒,因此數據拆分不太可能出現相同的幀。
Training

Video-level predictions

Feature histogram baselines

Quantitative results
基於特徵的方法在視頻的持續時間內密集地計算視覺詞,並且基於整個視頻級特徵向量產生預測,而我們的網絡僅分別看到20個隨機採樣的片段。
Contributions of motion

Qualitative analysis
在第一個卷積層中,context stream學習更多的顏色特徵;fovea streams學習高頻、灰度級特徵
網絡產生了可解釋的預測和大多合理的錯誤,進一步分析了這些錯誤均屬於數據集細粒度類


4.2 Transfer Learning Experiments on UCF-101
UCF-101: 13,320 videos  101 categories 5 broad groups
Transfer learning
概述
我們希望CNNs在底層學習到更多通用特徵,例如邊緣,區域形狀;接近頂層學習更復雜,具體的數據集特徵
因此提出以下方案:微調頂層;微調頂部3層;微調所有層;重新訓練
Results
由於作者沒有獲取到UCF-101的YouTube video IDs所以不能保證視頻和Sports-1M沒有重複
實驗發現只訓練softmax或者微調所有層不可行,最好的是重新訓練頂部多層

5. Conclusions
雖然實驗結果證明,性能對連接時間的架構細節不是特別敏感,但是Slow Fusion確實優於Late or Early Fusion。
作者發現單幀模型已經顯示出很強的性能,表明局部運動提示可能並不重要,即使對於動態的數據集,例如運動。

另一種理論是,對相機運動的更細緻的處理可能是必要的
混合分辨率架構能夠加速CNNs且不犧牲精度
轉移學習說明學習的特徵是通用的,通過重新訓練頂部層取得了最好的表現
在未來工作中,作者希望在數據集中吸收更廣泛的類別來獲取更有力和通用的特徵
研究那些明確地解釋攝像機運動的方法,並探索RNN作爲將clip級預測和完整視頻級預測結合起來的更強大的技術

個人理解

剛接觸這個領域不久,先是看了2016CVPR上有關視頻分析的的哥大的S-CNN,然後自頂而下學習3D ConvNets(C3D),再到這篇文章。就我個人看法,這篇論文初步探索瞭如何在考慮時間的連續性來設計網絡架構,達到提取運動信息的目的。但是由於作者設計的網絡在兩個數據集上均未取得特別驚人的效果,使得作者認爲局部運動信息可能並不重要,轉而研究其他的方向。值得一提的是我上一篇CV筆記博客講述的 3D ConvNets(C3D)剛好通過多次試驗得出3D卷積(增加時序維度的卷積)相比單幀網絡具有很大優勢,有興趣的朋友可以看一下!

發佈了32 篇原創文章 · 獲贊 55 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章