ImageNet Classification with Deep Convolutional Neural Networks

摘要

我們訓練了一個大型深度卷積神經網絡來將ImageNet LSVRC-2010數據集中的120萬張高清圖片分到1000個不同的類別中。在測試數據中，我們將Top-1錯誤和Top-5錯誤分別降到了37.5%和17.0%，這比之前的技術水平要好得多。這個神經網絡擁有6千萬的參數和65萬個神經元，共有五個卷積層，其中一些卷積層後面跟着最大池化層，還有利用softmax函數進行1000類分類的最後三個全連接層。爲了讓訓練速度更快，我們使用不飽和神經元，並利用高效的GPU實現卷積操作。爲了減少全連接層的過擬合，我們採用了一種最近研發出來的正則化方法——“DROPOUT”，它被證明十分有效。我們也在比賽中加入了這一模型的一個變體，第二名的26.2%相比，我們通過將TOP-5錯誤降到了15.3%而獲勝。

1 引言

最近的物體識別方法都應用了很重要的機器學習方法，爲了提高他們的表現，我們可以收集更大的數據集，學習訓練更強大的模型，並用更好的技術來避免過擬合。直到最近，有標籤的數據集都是相對較小的，一般只有萬張的數量級。單一的認知任務可以在這個數量級的數據集上得到很好地解決，特別是當其通過標籤保存變形技術被放大的時候。比如，現在在MNIST數據集上最低的數字識別錯誤率已經接近了人類的認知水平（<0.3%）。但是模型識別現實背景中物體的能力就表現得不太穩定了，所以爲了訓練識別這些物體提供大量的數據集是很有必要的。實際上，使用小數據集的缺陷已經被普遍認同了，但直到最近收集百萬有標籤圖片的數據集才成爲可能。這些新的大型數據集包括LabelMe，還有ImageNet。
爲了從百萬張圖片中學習到數千個物體，我們需要一個有強大學習能力的模型。然而，物體識別任務極高的複雜度意味着即使擁有ImageNet這麼大的數據集，這個問題也很難被具體化。所以我們的模型也需要大量先驗知識去補全所有缺失數據。卷積神經網絡（CNNs）就是一種這樣的模型。它們的學習能力可以通過控制網絡的深度和寬度來調整，它們也可以對圖片的本質（高層屬性）做出強大而且基本準確的假設（統計上的穩定性，以及像素依賴的局部性特徵）。因此，與同樣大小的標準的前饋神經網相比，CNNs有更少的連接、參數，所以更易於訓練，而且CNNs的理論最佳表現僅比前饋神經網絡稍差。
雖然CNNs質量很好，而且對於局部結構非常高效，但其應用代價對於大量的高清圖片而言還是昂貴到可怕。幸運的是，最近，GPU可以被應用於高度優化的2D卷積的實現，它們足夠強大，能夠加速大型CNNs的訓練過程。而且最近的數據集比如ImageNet包含了足量的有標籤樣本，可以用來訓練這些模型，而沒有太嚴重的過擬合。
本文的主要貢獻包括：我們在ImageNet的2010和2012數據集集上訓練了最大的CNNs之一，並且達到了迄今爲止最好的結果。我們編寫了一個高度優化的2D卷積的GPU實現，以及其他所有訓練CNNs的固有操作，並將其公之於衆。我們的網絡包含一系列新的不同凡響的特徵，這提高了它的表現性能，減少了它的訓練時間，具體情況在第三章介紹。即使我們擁有120萬的標籤樣例，我們的網絡的巨大體積也使得過擬合成了一個嚴重的問題，所以我們需要一系列技術去克服過擬合，這將在第四章中描述。我們的網絡最終包含5個卷積層和3個全連接層，這個深度也許是很重要的：我們發現去掉任意一個卷積層都會導致更差的表現，即使每個卷積層僅包含不到1%的模型參數。
最後，網絡的大小主要被GPU中可獲得的存儲數量，以及可忍受訓練時間所限制。我們的網絡需要在兩臺GTX 580 3GB GPUs訓練五至六天。我們所有的實驗都表明，只要等到更快的GPU和更大的數據集出現，其結果能夠被進一步提高。

2 數據集

ImageNet是一個擁有超過1500萬張帶標籤的高清圖片的數據集，這些圖片大約屬於2.2萬個類別。這些圖片收集自網絡並由亞馬遜的Turk羣智工具進行人工標記。從2010年開始，作爲帕斯卡物體可視化挑戰的一部分，一項被稱爲ILSVRC的比賽每年都會進行。ILSVRC使用ImageNet的一個子集，這個子集包含大約1000個類別，每個類別大概包涵1000張圖。總共大概有120萬張訓練圖片，5萬張驗證圖片和15萬張測試圖片。
2010年的ILSVRC數據集是唯一一個測試集標籤可得的版本，所以我們用它進行我們的大部分實驗。因爲我們也把我們的模型加入了2012年的ILSVRC比賽，所以我們在第六章也討論了這個數據集上的實驗結果，但其測試集標籤不可得，在ImageNet上，通常檢驗兩類錯誤率：TOP-1和TOP-5，TOP-5錯誤表示測試圖片的標籤不在模型所認爲的可能性最大的五個標籤中。
ImageNet包含各種清晰度的圖片，而我們的系統要求輸入維度恆定，因此，我們對圖片進行採樣，獲得固定大小的256X256的分辨率，對於每張長方形的圖，我們將短邊按比例調整爲256，然後取中心區域的256X256像素。我們並未使用其他方法對圖片進行預處理，除了把每個像素減去整個訓練集的平均值，所以我們的模型是在原始的RGB像素值上訓練出來的。

3 模型體系結構

網絡的體系結構如圖2.它包含8個學習層——五個卷積層3個全連接層。接下來，我們討論一些我們的網絡中創新的，或者不常見的結構。3.1~3.4節按照我們心目中對它們重要性的評估進行排序，越重要越靠前。

3.1 ReLU非線性

對神經元輸出 $f$ 的標準建模方法是將輸入 $x$ 函數變換爲 $f(x)=(1+e^{-x})^{-1}$ 或者 $f(s)=tanh(x)$ 。從梯度下降的訓練時間而言，這種飽和的非線性比使用非飽和的非線性 $f(x)=max(0,x)$ 要慢得多。根據Nair和Hinton說法，我們讓神經元使用這種非線性——修正線性單元（ReLUs）。使用ReLU的深度卷積神經網絡比使用tanh的網絡訓練速度快幾倍。圖一展示了一個特定的四層CNN在CIFAR-10數據集上達到25%訓練錯誤所需要的迭代次數。這張圖顯示，如果我們採用傳統的飽和神經元，我們將不可能爲這項工作訓練如此龐大的神經網絡。

圖1：帶有ReLU的四層卷積神經網絡（實線）在CIFAR-10上達到25％的訓練錯誤率，比具有tanh神經元的等效網絡（虛線）快六倍。每個網絡的學習率是獨立選擇的，以使訓練儘可能快。沒有使用任何形式的正則化。此處顯示的效果大小隨網絡體系結構而異，但是具有ReLU的網絡的學習速度始終比具有飽和神經元的等效網絡快幾倍。
我們並不是最早考慮替換傳統CNN神經元模型的人。比如，Jarrett等人宣稱利用 $f(x)=|tanh(x)|$ 非線性在Caltech-101數據集上做對比度歸一化和局部平均值池化表現得很好。然而，關於這個數據集的主要問題是要防止過擬合，所以他們觀察到的效果，與我們報告的使用ReLUs時對訓練集的適應累積能力不同。更快的學習對於在大型數據集上訓練大型模型的表現有重大影響。

3.2 多GPU並行訓練

單個的GTX580GPU只有3G的存儲空間，這會限制能夠在其上訓練的網絡大小。充分訓練網絡需要120萬張訓練樣本圖，這對於一個GPU而言量太大了，所以我們將網絡分佈在兩個GPU上。現在的GPU非常適合做跨GPU並行運算，因爲它們可以直接向彼此的存儲中做讀寫操作，而無需通過宿主機存儲。我們採用的這種並行模式主要是將各一半的網絡內核（或神經元）放在每個GPU上，然後再採用一個小技巧：將GPU通信限制在某些特定的層上。這意味着，比如，第三層的內核從所有的第二層內核映射（kernel map）中獲得輸入，但是，第四層的內核只從和自己在同一個GPU上的第三層內核中獲得輸入。選擇一種連接模式對於交互驗證是個問題，但這允許我們精確調整連接的數量，直到計算量落入一個可接受的範圍內。
由此產生的結構會和所謂的“柱狀（columnar）”CNN有些類似，只是我們的“柱子”不是獨立的（見圖2）。與用一個GPU訓練每個卷積層只有一半的內核的網絡相比，這種結構將我們的TOP-1錯誤和TOP-5錯誤分別降低了1.7%和1.2%。雙GPU結構網絡比單GPU網絡所需的訓練時間要稍微少一些。

圖2：我們的CNN架構的圖示，明確顯示了兩個GPU之間的職責劃分。一個GPU在圖的頂部運行圖層部分，而另一個GPU在圖的底部運行圖層部分。GPU僅在某些層進行通信。網絡的輸入爲150,528維,網絡其餘層中的神經元數爲:253,440–186,624–64,896–64,896–43,264– 4096–4096–1000。

3.3 局部反應歸一化

ReLUs有一個很讚的屬性，它們無需對輸入數據進行歸一化來避免其飽和。如果至少有一些訓練樣例爲ReLU產生了正輸入，那麼這個神經元就會進行學習。然而，我們還是發現下面這種歸一化的模式能夠更好地泛化。設由第 $i$ 個內核計算 $(x,y)$ 位置的ReLU非線性的活動爲 $a^{i}_{x,y}$ ，反應歸一化活動 $b^{i}_{x,y}$ 如下公式所示：

$\large{b^{i}_{x,y}=a^{i}_{x,y}/(k+\alpha \sum^{min(N-1,i+n/2)}_{j=max(0,i-n/2)}(a^{j}_{x,y})^{2})^{\beta}}$

其中，累加公式中的 $n$ 表示同一空間上鄰接於該位置的所有內核映射的數量， $N$ 表示這一層的所有內核數。內核映射的順序當然是任意的，並且是在訓練之前就定好了的。這種反應歸一化實現了一種模仿生物神經元的橫向抑制，讓神經元在利用不同內核進行計算的大規模活動中產生競爭。參數 $k$ 、 $n$ 、 $\alpha$ 、 $\beta$ 是超係數，它們的值由驗證集決定。我們取 $k=2$ ， $n=5$ 、 $\alpha=10^{-4}$ 、 $\beta$ 我們在特定層使用ReLU非線性之後應用這種歸一化。
這種模式與Jarrett等人提出的局部對比度歸一化有點類似，但我們的方法更準確的描述應該是亮度歸一化，因爲我們並不減去均值。反應歸一化將我們的TOP-1和TOP-5錯誤分別降低了1.4%和1.2%。我們還在CIFAR-10數據集上驗證了該模式的效果：四層CNN不用歸一化錯誤率爲13%，用了之後降到了11%。

3.4 重疊池化

CNN中的池化層負責對同一內核映射中相鄰的神經元組的輸出求和。一般地，被鄰接的池化單元求和的鄰居節點是沒有重複的。爲了更加精確，一個池化層可以看做由相隔 $\large{s}$ 個像素佔據的池化單元組成的網格所構成，每個單元負責對相鄰的 $\large{z*z}$ 範圍的中心區域求和。若設 $\large{s=z}$ ,我們就能夠獲得用於大多數CNN的傳統的局部池化方法。若設 $\large{s<z}$ ,我們就得到了有重疊的池化。這就是我們在自己的網絡中使用的方法， $\large{s=2}$ , $\large{z=2}$ 。與無重疊的 $\large{s=z=2}$ 相比，這一模式在產生相同維度的輸出時分別將TOP1和TOP5降低了0.4%和0.3%。我們還觀察到，採用有重疊的池化能稍稍讓模型更難過擬合。

3.5 整體結構

現在我們可以描述我們的CNN的整體結構了。如圖2，這個網絡包含8個加權的層：前五個是卷積層，後三個是全連接層。最後一個全連接層輸出一個1000維的softmax來表達對於1000個類別的預測。我們的網絡將多項式邏輯迴歸目標最大化，這等效於在預測分佈下最大化正確標籤的對數概率訓練案例的平均值。
第2、4、5個卷積層的內核只與前一層與自己同在一個GPU上的內核映射相連接。第三層的內核與全部的第二層內核映射相連接。全連接層的神經元與上層神經元全都有連接。反應歸一化層跟在第二個卷積層後面。最大值池化層（如3.4所討論的）跟在反應歸一化層後面和第五個卷積層後面。ReLU非線性被應用在每個卷積層和全連接層。
第一個卷積層的輸入是224 × 224 × 3的圖像，然後用96個11 × 11 × 3的步長爲4像素的內核去過濾（步長是相鄰神經元感知區域中心之間的距離）。第二個卷積層將第一個卷積層的輸出作爲輸入，然後用256個5 × 5 × 48的內核進行過濾。第三、四、五層卷積層前後相連，之間沒有池化層和歸一化層。第三個卷積層有384個3 × 3 × 256的內核，連接着第二個卷積層的輸出。第四個卷積層有384個3 × 3 × 192的內核，第五個卷積層有256個3 × 3 × 192的內核。每個全連接層各有4096個神經元。

4. 減少過擬合

我們的神經網絡擁有6000萬的參數，雖然ILSVRC的1000個類別將從圖片到標籤的映射限制在10個bits，這依然不足以訓練這麼多的參數而不造成過擬合。下面，我們將介紹兩種對付過擬合的基本方法。

4.1 數據集增強

最簡單最常用的減少過擬合的方法就是利用標籤保存變形技術人工放大數據集。我們採取了兩種不同形式的數據放大，它們都允許在僅對原圖做少量計算的情況下產生變形的新圖，所以變形後的新圖無需存儲在硬盤中。在我們的實現中，變形的新圖由Python在CPU上計算產生，與此同時，GPU仍在計算其他的之前批次的圖片。所以這種放大數據集的方式是很高效很節省計算資源的。
第一種放大數據集（產生新圖）的方式由圖片平移和水平鏡像組成，我們通過從 $256\times256$ 的圖片中隨機抽取 $224\times224$ 的區塊（及其水平鏡像）來實現這種方法，並在這些抽取後得到的區塊上訓練我們的神經網絡。這種方法爲我們的訓練集增加了2048個因子，雖然這些生成的訓練圖片明顯是相互關聯的。如果不採用這種方法，我們的網絡會出現嚴重的過擬合，進而迫使我們採用更小的網絡。在測試過程中，網絡會抽取五個（四角和中間） $224\times224$ 的區塊及其水平鏡像進行預測，然後將softmax層對這十個區塊做出的預測取平均。
第二種放大數據集的方法是對訓練圖片的RGB頻譜密度進行改變。特別地，我們在整個ImageNet訓練集上對RGB像素進行主成分分析（PCA），對於每張訓練圖像，我們通過均值爲0，方差爲0.1的高斯分佈產生一個隨機值,然後通過向圖像中加入相應更大比例本徵值的 $a$ 倍，把其主成分翻倍,因此對於每個RGB像素 ${{I}_{xy}}={{[I_{xy}^{R},I_{xy}^{G},I_{xy}^{B}]}^{T}}$ 我加入的值如下：
$[{{\text{p}}_{1}},{{\text{p}}_{2}},{{\text{p}}_{3}}]{{[{{\alpha }_{1}}{{\lambda }_{1}},{{\alpha }_{2}}{{\lambda }_{2}},{{\alpha }_{3}}{{\lambda }_{3}}]}^{T}}$

其中， ${\text{p}}_{i}$ 和 $\lambda_{i}$ 分別是第 $i$ 個特徵向量和第 $i$ 個 $3\times3$ RGB協方差矩陣的本徵值。而 $a_{i}$ 是前面所述的隨機變量。對於一張特定的訓練圖片的所有像素，每個 $a_{i}$ 僅被抽取一次，直到這張圖再次被用於訓練纔會再次提取隨機變量。這一方案能夠近似地捕捉原始圖像的一些重要特徵，即那些不隨光線強度與顏色變化的物體特質。這一方法把top-1錯誤降低了1%。

4.2 DROPOUT

降低測試錯誤的一種有效方法是聯立多種不同模型的預測結果，但這種方法對於大型神經網絡來說似乎太昂貴了，需要好幾天去訓練。然而，有一種非常高效的模型聯立方法，只需要在訓練過程中消耗一到兩個因子。這種新近研究出來的技術叫做“DROPOUT”，它會以50%的概率將每個隱藏層神經元置零。以這種方法被置零的神經元不再參與前饋和BP過程。所以每次一個輸入進來之後，這個神經網都會被置於不同的結構，但所有這些結構共享同一套參數。這種技術降低了神經元間相互適應的複雜性，因爲每個神經元都不可能依賴其他特定某個神經元的表現。因此，模型被迫學習更加健壯的特徵，使之能夠被許多不同的隨機神經元子集使用。在測試中，我們使用所有的神經元，但是把它們的輸出乘以0.5，這是一種對大量dropout網絡產生的預測分佈的幾何均值的合理近似。
我們在圖2中的前兩個全連接層使用dropout。否則，我們的網絡會表現出嚴重的過擬合。dropout大概會讓達到收斂所需要的迭代次數翻倍。

5. 學習過程的細節

我們每個訓練批次有128個樣本，在其上採用隨機梯度下降進行訓練。設置增量爲0.9，權值衰退因子爲0.0005.我們發現小的權重衰退因子對於模型學習很重要，換句話說，權重衰退因子在這裏不光是個正則化因子，它還可以減少模型錯誤。權值 $w$ 的更新規則是：
$\large{{{v}_{i+1}}:=0.9\cdot {{v}_{i}}-0.0005\cdot \varepsilon \cdot {{w}_{i}}-\varepsilon \cdot {{\left\langle {{\left. \frac{\partial L}{\partial w} \right|}_{{{w}_{i}}}} \right\rangle }_{{{D}_{i}}}}} \\ \large{{{w}_{i+1}}:={{w}_{i}}+{{v}_{i+1}}}$
其中, $i$ 是迭代次數, $v$ 是增量， $\varepsilon$ 是學習速率， ${\left\langle {{\left. \frac{\partial L}{\partial w} \right|}_{{{w}_{i}}}} \right\rangle }_{{{D}_{i}}}$ 是第 $i$ 批次的目標函數關於 $w$ 的導數（ $w_{i}$ 的偏導數） $D_{i}$ 的平均值。
我們將每一層的權值利用均值爲0方差爲0.01的高斯分佈隨機初始化，我們用常數1初始化第2、4、5卷積層和全連接隱藏層的偏置神經元（常數單元）。這種初始化通過向ReLUs提供正輸入，加速了學習的早期過程。我們將其它層的偏置神經元初始化爲0。
在整個學習過程中，我們在所有層都使用人工調整的相等的學習速率。我們採用的啓發式方法是當驗證誤差不在降低時，就把當前的學習速率除以10。學習速率初始化爲0.01，並在結束前減小3次。（做三次除以10）我們大概用120萬張圖片把我們的網絡訓練了約90輪，在兩個NVIDIA GTX 580 3GB GPU上這大概要5到6天。

6 實驗結果

我們在ILSVRC-2010數據集上的實驗結果歸納在表1裏。我們的網絡top-1和top-5測試誤差分別是37.5%和17.0%。在此之前ILSVRC- 2010數據集上的最好的比賽紀錄是對在不同特徵上訓練的留個稀疏自編碼器取平均，top-1和top-5測試誤差分別是47.1%和28.2%。之後，已出版的最佳結果是一種對兩個在不同取樣密度的費舍向量上訓練的分類器取平均的方法，結果是45.7%和25.7%。

表1：ILSVRC-2010測試集的結果比較。斜體字是他人獲得的最佳結果。

我們也讓我們的模型參加了ILSVRC-2012的比賽，並在表2中展示了我們的結果。因爲ILSVRC-2012測試集的標籤並未公開，所以我們不能報告我們所有試過的模型的測試錯誤率。在這一段的餘下部分，我們使用驗證誤差代替測試誤差，因爲根據我們的經驗，它們的差距不會大於0.1%（見表2）。本文介紹的卷積神經網絡達到了Top-5錯誤18.2%的水平。5個相同CNN平均TOP-5錯誤爲16.4%。訓練一個比之前說的五個卷積層還多一個卷積層的CNN去分類整個ImageNet Fall 2011數據集（1500萬張圖，22000個類別），然後對其進行調整，在ILSVRC-2012上可以達到16.6%的TOP-5錯誤。兩個在ImageNet Fall 2011數據集上預訓練的CNN，加上前面提到的五個CNN，平均TOP-5爲15.3%。比賽的第二名達到了26.2%的TOP-5，他們用的是對幾個在特徵取樣密度不同的費舍向量上訓練的分類器的預測結果取平均的方法。

表2：ILSVRC-2012驗證和測試集的錯誤率比較。斜體字是他人獲得的最佳結果。帶星號*的模型經過“預訓練”以對整個ImageNet 2011 Fall版本進行分類。有關詳細信息，請參見第6節。

最後，我們還報告了ImageNet 2009年秋季版本的錯誤率，其中包含10,184個類別和890萬張圖像。在此數據集上，我們遵循文獻中的慣例，即使用一半的圖像進行訓練，一半使用圖像進行測試。由於沒有建立的測試集，因此我們的劃分必然不同於以前的作者使用的劃分，但這不會對結果產生明顯影響。通過上述網絡，我們在此數據集上的前1個和前5個錯誤率分別爲67.4％和40.9％，但在最後一個合併層上還有一個第六卷積層。在該數據集上公佈的最佳結果是78.1％和60.9％。

6.1 定量分析

圖3展示了網絡的兩個數據連接層學到的卷積內核。網絡學到了一系列“頻率+方向選擇”的內核，還有一系列色塊。請注意兩個GPU表現除出了不同的特性，這是3.5節介紹的限制互聯方式的結果。GPU 1上的內核基本上不在意顏色，而GPU 2 上的內核就是色彩專家。這種專一性每次都會出現，與權值的隨機初始化無關（GPU重新編號）。

圖3：96個通過第一個卷積層學習224x224x3的圖片得到的11x11x3的卷積內核。上面48個和下面48個分別由兩個GPU學習得到，詳見6.1.

圖4:(左）八張ILSVRC-2010測試圖像和我們的模型認爲最可能的五個標籤。正確的標籤寫在每個圖像下，並且分配給正確標籤的概率也用紅色條顯示（如果它恰好位於前5位）。（右）第一列中的五張ILSVRC-2010測試圖像。其餘的列顯示了六個訓練圖像，這些圖像在最後一個隱藏層中生成特徵向量，這些特徵向量與測試圖像的特徵向量之間的歐式距離最小。

在圖四的左側，我們定量地展示了對於8張圖片網絡所學習到的前五個預測。注意對於偏離中心的物體，比如左上角的那隻蟎蟲，網絡依然可以識別出來。大多數前五個標籤看起來都比較合理，比如，只有其他類別的貓科動物才被判別是豹子的可能標籤。在一些例子中，比如柵欄，櫻桃，確實對於究竟該關注哪個物體存在歧義。
另一個研究可視化網絡所學知識的方法是考慮最後一個4096維隱層所激活的特徵向量。如果兩張圖的向量歐氏距離很小，我們可以說很大程度上神經網絡認爲它們是相似的。圖4展示了五張測試集中的圖片，以及按照上述方法找出的分別與這五張圖最相似的6張訓練集圖片。注意在像素尺度上，找出來的訓練集圖片不一定在L2上和第一列的測試集圖片很相似。比如，找出來的狗狗和大象擺出了不同的造型。我們用更多的測試集圖片支持證明了這一觀點。
通過兩個4096維的實數向量之間的歐氏距離來計算相似度顯然效率很低，但可以通過訓練一個自編碼器去把這些向量壓縮爲二進制編碼來提高效率。這應該能夠產生一種比對原始像素進行自編碼更好的圖像檢索方法，因爲（對原始像素進行自編碼）用不到標籤，因此它傾向於找出具有同樣邊緣模式的圖片，而不是語義上相似的圖。

7 討論

我們的結果顯示一個大型深度卷積神經網絡能夠在一個極具挑戰的數據集上進行破紀錄的純粹的監督學習。值得注意的是，如果把我們的網絡去掉一層卷積層，表現就會變差。比如，去掉任意隱藏層會讓top-1錯誤增加2%，所以深度對於我們的成功真的很重要。
爲了簡化我們的實驗，我們並未使用非監督的預訓練，即使我們知道這樣會有幫助，特別是如果我們能夠獲得足夠的計算力去大幅提升網絡規模卻不相應地增加標籤數據的數量。至此，我們的結果已經通過增大我們的網絡規模、進行更長時間的訓練而得到優化。但我們還有很大的空間去優化網絡使之能夠像人類的視覺系統一樣感知時序。最終我們希望在視頻序列上使用極大極深的卷積神經網，因爲視頻序列的時序結構能夠提供豐富的信息，這些信息在靜態圖片上丟失了，或遠遠沒有那麼明顯。

參考文獻

[1]https://blog.csdn.net/motianchi/article/details/50851074
[2] Krizhevsky A, Sutskever I, Hinton G E, et al. ImageNet Classification with Deep Convolutional Neural Networks[C]. neural information processing systems, 2012: 1097-1105.

ImageNet Classification with Deep Convolutional Neural Networks全文翻譯