一、基本信息
標題:Very deep convolutional networks for large-scale image recognition
時間:2014
出版源:arXiv
論文領域:CNN、深度學習
引用格式:Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
二、研究背景
在這項工作中,我們研究了在大規模圖像識別中卷積網絡的深度對其準確性的影響。
我們的主要貢獻是對使用帶有非常小(3 * 3)卷積濾波器的結構來增加深度的網絡進行了深入評估,結果顯示,通過將深度推到16-19個權重層,可以顯著改善以前的配置。
CNN取得成功,原因:
- 大型訓練集,如ImageNet
- 高性能計算GPU以及分佈式計算
- ImageNet Large-ScaleVisual Recognition Challenge
許多人對AlexNet改進:
- 更小接收窗口(卷積核大小?),更小步長 ILSVRC-2013 (Zeiler & Fergus, 2013; Sermanet et al., 2014)
- 訓練在多尺度上Sermanet et al., 2014; Howard, 2014
- 本文側重對卷積深度的改進,使用很小的核3 * 3
三、創新點
深度
輸入:224 * 224
預處理:每個像素RGB 減去 訓練集RGB均值
3個3 * 3 與單個 7 * 7:
- 3和卷積帶來的識別能力更強
- 參數更少
- 使用1 * 1卷積,增加決策函數而不影響卷積層接收域
小尺寸卷積核:
GoogleNet也使用了更深的網絡(22層),更小的卷積核3 * 3 ,同樣使用 1 *1卷積,其更復雜,在第一層降低了特徵圖的空間分辨率,以減少計算量。單網絡分類準確度方面,本文由於GoogleNet。
conv3-64 表示 3 * 3 卷積核大小,數目64
上圖從做到右:
8個卷積層 + 3個全連接層 到 16個卷積層 + 3個全連接層
卷積層的寬度(通道數)更小,從64到512,每次池化翻倍
雖然深度變多,但是沒有比大卷積核的網絡更多,可以看對最多144M
訓練圖像尺寸
單尺度
一般採用256,然後通過256預先訓練,再來訓練384
多尺度
在[256, 512]範圍內隨機調整訓練圖像大小,因此可以識別更多尺寸,從預先固定的384尺寸進行微調。
多尺度的數據增強?
四、實驗結果
單尺度驗證
- 使用本地響應規範化(A- lrn網絡)不能改善沒有任何規範化層的模型A。因此,我們沒有在更深層次的架構(B-E)中使用標準化。
- 分類錯誤隨着深度增加而減小。
- C(使用1 * 1)雖然比B好,但是沒有D(3 * 3)好,說明卷積的作用同樣重要
- 層數達到19層提升不在明顯,當對於更大的數據來說,也行可以繼續增加深度
- 作者還在B上測試使用5 * 5卷積核,結果是提示了7%的錯誤率在top-1上,說明更小的卷積核優於大尺寸卷積核
- 使用過尺度抖動增強訓練集確實有助於捕獲多尺度圖像統計。訓練圖像尺寸
多尺度驗證
對於固定尺度S:Q = {S − 32, S, S + 32}.
對於多尺度:
多組驗證
五、結論與思考
作者結論
在這項工作中,我們評估了用於大規模圖像分類的深度卷積網絡(高達19個權重層)。研究表明,表示法的深度有利於分類的準確性,而且使用傳統的ConvNet架構可以實現ImageNet challenge數據集的最先進性能(LeCun et al., 1989;Krizhevsky等人,2012),大幅增加深度。在附錄中,我們還展示了我們的模型能很好地概括廣泛的任務和數據集,匹配或優於建立在較低深度圖像表示的更復雜的識別管道。我們的結果再次證實了深度在視覺表現中的重要性。