VGG論文翻譯

本文爲VGG論文的翻譯,VGG英文論文地址:http://www.robots.ox.ac.uk/~vgg/research/very_deep/

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

牛津大學

Absract

在這篇文章中我們探討了在大規模圖像識別中卷積網絡深度設置對準確率的影響。文章主要的思想是通過 增加3*3的卷積核結構來增加網絡深度,增加網絡層數到16或19層,網絡表現出了一個顯著的效果提升。這些理論結果是我們在ImageNet2014挑戰中的應用基礎,我們的團隊在檢測和分類任務中各自取得了第一和第二的成績。我們也展示出了我們的網絡結構對其他數據集也具有較好的效果,達到了state-of-the-art水平。我們已經將最優的兩個卷積網絡模型開源以此來促進未來深度卷積網絡在計算機視覺中的研究。

1.Introduction

近來卷積網絡已經在大規模圖片和視頻識別方向上取得了很大的成功,一系列的相關的研究工作使得大規模開源圖像數據,如ImageNet等的識別成爲可能。與此同時,高性能的計算體系,如GPU或大規模分佈式的使用等。特別的是,基於ImageNet的大規模視覺識別競賽已經在在深度視覺識別領域中成爲了一個重要的角色,它爲使用深度網絡提取高維隱藏特徵進行大規模圖像分類的模型提供了一個可靠的測試集。

在卷積網絡在計算機視覺領域成爲一種通用結構時,大量的研究致力於微調AlexNet的結構來提升準確率。例如,ILSVRC-2013中最優性能者在第一層中使用了更小的接受窗尺寸和更小的滑動。另一個在訓練和測試中有提升的舉措是使用整個數據集多次訓練、並且使用多種尺寸來訓練網絡。在本文中,我們着重於另一個卷積網絡架構設計中的要點—深度。爲了達到這個目標,我們固定了網絡架構中的其他參數,通過增加捲積層來平穩的增加網絡深度。由於小卷積核(3*3)的使用,這種方法(不斷增加網絡深度)得以實現。

結果,我們得出了一種更加精準的卷積網絡結構,不僅在ILSVRC分類和檢測任務中達到了業界先進水平,也在其他的圖像分類數據集中有比較好的表現(即使是使用更簡單的pipeline:不帶finetuning的深度特徵的先行分類SVM )。我們已經將兩個最優模型開源以促進未來更好的相關研究。

這篇文章剩餘的部分組織如下:在第二節中,我們描述了我們這個卷積網絡的配置;圖像分類訓練和評估的細節描述在第三部分;在ILSVRC分類任務中的配置對比在第四節;第五節是文章的結論。爲了文章的完整性,我們也在附錄A描述和評估了ILSVRC-2014目標檢測任務;附錄B討論了深度特徵在其他數據集的通用性;最後附錄C包含了本文的主要引用。

2.CONVNET CONFIGURATIONS

爲了確定出卷積網絡深度對精度提升的影響,我們所有的網絡都是使用相同的基準配置(基於AlexNet)。這一節我們首先描述卷積網絡配置的整體設計;然後對網絡結構設計細節展開描述;最後討論了我們的網絡與先前網絡的比較。

2.1ARCHITECTURE

訓練時,我們的卷積網絡的輸入層固定爲224*224的RGB圖像。我們僅有的一個預處理是下采樣RGB圖像的均值,從訓練集中計算而來。圖片被傳遞給堆疊的卷積層,這些卷積層使用了非常小的感受野(3*3)。在其中一種配置中我們也利用了1*1的卷積核,可以被看作是輸入通道的(非)線性轉換。卷積步長爲1;使用spatial padding。每層的輸入如此,以此保持空間分辨率在卷積後保持不變。最大池化層使用2*2的窗口 ,滑動步長爲2。

堆疊的卷積層(在不同的架構中具有不同的深度)後面接上三個全連接層:前兩層使用4096個通道,第三層使用1000個通道,以適應ILSVRC的分類任務。最後一層是soft-max層。全連接層的配置在所有結構中相同。

所有的隱藏層均使用Relu作爲非線性激活函數。值得強調的是,我們的所有網絡中沒有任何一個包含LRN層:在第四小節中我們對使用LRN的結果進行了展示:LRN層沒有對精度有提升,但卻導致了內存消耗和時間消耗。

2.2CONFIGURATIONS

在本文中的卷積網絡的配置評估被列舉在Table1中的每一列。接下來我們使用網絡的名稱(A-E)來代替各種配置結構的網絡。所有的配置都遵循2.1中的網絡設計準則,唯一的不同就是網絡深度:從11層(A)到19層(E)不等。卷積層的寬度從64每次max-pooling以2的倍數增大,直到512個通道。

在Table2中我們列出了每個配置的網絡的參數數量。即使是深層的網絡,參數數量也不會較淺的大卷積層(層寬度和感受野)的網絡多。

2.3DISCUSSION

不同於其他在ILSVRC競賽中取得頂級成績的網絡架構,我們在整個網絡中都使用了非常小的3*3感受野,並且在輸入的每個像素進行卷積(步長爲1)。很容易發現兩個3*3卷積的堆疊層具有5*5的感受野;三個這樣結構層感受野是7*7。那麼,我們不使用7*7的卷積核,而是使用3個堆疊的3*3卷積核的原因是什麼?這樣做的目的有幾個:首先,整合三個非線性映射層而不是一個,這將會使決策函數更加具有判別性;其次,減少了參數數量:假設一個3個堆疊的3*3卷積層的輸入輸出都具有C個通道,堆疊結構的參數數量爲3*(3*3*C*C)=27*C*C個權重;然而,一個單獨的7*7的卷積層的參數數量爲7*7C*C=49*C*C個權重。堆疊結構可以看作是增加正則的7*7卷積核,迫使網絡改變,增加非線性。

1*1卷積核(Table1中的配置C)的加入是一種增加捲積層非線性又不改變感受野的方式。雖然在我們的例子中,1*1的卷積核僅僅增加了相同維度空間的線性映射,但激活函數的加入會增加非線性。值得注意的是1*1卷積核最近被利用在了Network in Network結構中(Inception)。

小尺寸的卷積核在先前被提出過,但他們的網絡遠遠沒有我們的深。並且他們沒有在大規模數據集上進行過測試。Goodfellow et al.應用深度卷積網絡(11層)到街道數字識別任務中,並展示出增加網絡深度往往具有較好的性能。GooleLeNet,在ILSVRC-2014分類任務中的頂級性能網絡,獨立於我們的研究,但卻十分相似,因爲它基於很深的網絡層(22層)和很小的卷積核(2*2、5*5、1*1)。他們的網絡拓撲比我們的網絡更加複雜,他們在第一層的特徵映射的空間轉化減少更多以此來減少計算量。在4.5節中將會展示:就單網絡的分類性能來說,我們的模型比GooleNet(InceptionV1)更加優秀。

3.CLASSIFICATION FRAMEWORK

在先前的章節中描述了我們的網絡配置細節。在這一節中,我們描述關於模型訓練評估的具體細節。

3.1TRAINING

卷積網絡的通用訓練步驟遵循AlexNet的方式。通過使用SGD優化多項邏輯迴歸目標。batch_size被設置爲256,moment設置爲0.9,訓練的weight_decay設置爲5*10e-4,前兩個全連接層的droup設置爲0.5,learning-rate初始化爲0.01,當驗證機準確率不在提升時以0.1遞減。學習率總共遞減三次,之後,訓練在地370K(74個epoch)次迭代停止了。我們認爲,相比AlexNet,儘管我們的網絡有更多的參數和更深的網絡深度,但是網絡需要更少的epoch就可以收斂,原因有二:1) 由深度和更小的卷積核提供的大量潛在正則化;2) 一些層的預訓練。

網絡權重的初始化非常重要,由於深度網絡中的提督的不穩定性,不好的初始化會使訓練發散。爲了解決這個問題,我們開始訓練配置A,這個網絡比較淺,可使用隨機初始化。然後,在訓練一個更深的網絡結構時,在前四個卷積層和後面三個全連接層使用A的權重來初始化,讓他們在學習中調整。對於隨機初始化,我們從0軍制和0.01標準差的正態分佈進行權重初始化,偏執初始化爲0。值得注意的是,在文章提交以後我們才發現不帶預訓練的權重而使用隨機初始化是可能的,參考Glorot & Bengio (2010)。

爲了得到固定的224*224的卷積輸入圖片,對重新放縮後的圖片進行隨機裁剪(每次SGD迭代中每幅圖像裁剪一次)。爲了更好的數據增強,裁剪進行了隨機的橫向反轉和隨機RGB色彩漂移。下面解釋訓練圖片的重放縮。

Traing image size. 假設S代表各向同性重新調整的訓練圖像的最小邊(what?),卷積網絡的輸入裁減的就是S(我們也稱S爲訓練尺寸)。當裁剪尺寸固定爲224*224,基準S可以去任何不小於224的尺寸:如果S=224,裁剪將會捕獲全圖像數據的統計,完全監控訓練圖片的最小邊;如果S>>224,裁剪將會使用圖片的一個表部分,包含一個小目標或目標的一部分。

我們考慮兩種方法來設置訓練尺寸S。第一種方式時固定S,對應於單一尺寸訓練(注意採樣裁剪中的圖片內容仍然代表多尺寸圖像統計)。在我們的實驗中,我們在兩種尺度上評估模型訓練:S=256 和S=384。給出一個卷積網絡配置時,我們首先使用S=256訓練網絡。爲了加速訓練S=384的網絡,使用S=256的網絡進行權重初始化,並且使用一個更小的初始學習率:0.001。

第二個設置S的方式時多尺寸訓練,每次訓練圖片相對獨立重放縮通過隨機採樣S從範圍[Smin, Smax](我們使用Smin=256,S max=512)。因爲圖片中的目標尺寸不同,將這考慮進去對訓練有好處。這也可以被看作訓練數據增強,訓練出的單模型可以應用到大範圍的目標識別中。爲了加速的多尺寸的模型訓練,我們通過fine-tuning相同的網絡配置的單尺寸模型的所有層,預訓練固定爲S=384進行訓練。

3.2TESTING

在測試時,給出一個訓練過的卷積網絡和一個輸入圖片,那麼它將會被按照下面的方式分類。首先,它被同等放縮到一個預定義的最小圖片邊尺寸,標記爲Q(我們也稱之爲測試尺寸。我們強調,Q不一定要等於S,對每一個Q使用幾個Q的值會有性能提升)。之後,網絡被以類似於(Sermanet et al., 2014)的方式密集的應用到測試圖片中。值的說明的是,全連接層首先被理解爲卷積網絡(第一個全連接層被轉化爲7*7卷積層,剩下的兩個全連接層爲1*1),然後所有的卷積網絡被應用到整張圖片中。結果是一個類別得分映射,其中的通道數等於類別數,是變量空間的一種轉化,獨立於輸入圖片尺寸。最後,爲了讓圖片獲得一個固定尺寸的響亮,類別分數圖被全局平均。我們也對測試數據使用了水平翻轉等數據增強手段;soft-max的類別滯後於原生,同時翻轉圖片輸入能夠獲得同樣的效果。

自從券鏈接網絡被應用到整張圖片以後,測試時就不需要多裁剪來採樣圖片了,因爲效果甚微,但卻需要對每次裁剪都進行一次計算。同時,使用一個大的裁剪集合,就像 Szegedy et al.(2014)做的,可能帶來性能提升,因爲它帶來了更適合網絡的輸入圖片。同時,由於網絡的不同卷積邊界條件,多裁剪評估也爲卷積網絡帶來了補充:當將一種裁剪尺寸應用到一種網絡中,卷積特徵被padding了0,這時padding的特徵來自於它的圖片的臨近部分,實際上是增加了網路的感受野,因此更過的內容被提取到了。因此我們相信在實際中增加多尺寸裁剪的計算時間毫無疑問的會增加準確率,在引用中,我們也使用了多種裁剪方式,並與Szegedy et al. (2014)進行了對比。

3.2IMPLEMENTATION DETAILS

4 CLASSIFICATION EXPERIMENTS

5 CONCLUSION

在這篇文章中我們評估了一深度卷積網絡在大規模圖像分類中的應用。結論是深度對分類性能有提升。通過擴展經典卷積網絡的深度來達到ImageNet挑戰的業界領先水平。在附錄中,我們也展示了我們的模型在很多任務和數據集上性能良好,超出了更復雜的分類器結構的分類精度。我們的結果證實了深度在計算機視覺中的重要性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章