cv論文筆記：Very deep convolutional networks for large-scale image recognition（VGG）

原創

2020-06-18 23:16

一、基本信息

標題：Very deep convolutional networks for large-scale image recognition
時間：2014
出版源：arXiv
論文領域：CNN、深度學習
引用格式：Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

二、研究背景

在這項工作中，我們研究了在大規模圖像識別中卷積網絡的深度對其準確性的影響。

我們的主要貢獻是對使用帶有非常小(3 * 3)卷積濾波器的結構來增加深度的網絡進行了深入評估，結果顯示，通過將深度推到16-19個權重層，可以顯著改善以前的配置。

CNN取得成功，原因：

大型訓練集，如ImageNet
高性能計算GPU以及分佈式計算
ImageNet Large-ScaleVisual Recognition Challenge

許多人對AlexNet改進：

更小接收窗口（卷積核大小？），更小步長 ILSVRC-2013 (Zeiler & Fergus, 2013; Sermanet et al., 2014)
訓練在多尺度上Sermanet et al., 2014; Howard, 2014
本文側重對卷積深度的改進，使用很小的核3 * 3

三、創新點

深度

輸入：224 * 224
預處理：每個像素RGB 減去訓練集RGB均值
3個3 * 3 與單個 7 * 7：

3和卷積帶來的識別能力更強
參數更少
使用1 * 1卷積，增加決策函數而不影響卷積層接收域

小尺寸卷積核：
GoogleNet也使用了更深的網絡（22層），更小的卷積核3 * 3 ，同樣使用 1 *1卷積，其更復雜，在第一層降低了特徵圖的空間分辨率，以減少計算量。單網絡分類準確度方面，本文由於GoogleNet。

conv3-64 表示 3 * 3 卷積核大小，數目64
上圖從做到右：
8個卷積層 + 3個全連接層到 16個卷積層 + 3個全連接層
卷積層的寬度（通道數）更小，從64到512，每次池化翻倍
雖然深度變多，但是沒有比大卷積核的網絡更多，可以看對最多144M

訓練圖像尺寸

單尺度

一般採用256，然後通過256預先訓練，再來訓練384

多尺度

在[256, 512]範圍內隨機調整訓練圖像大小，因此可以識別更多尺寸，從預先固定的384尺寸進行微調。

多尺度的數據增強？

四、實驗結果

單尺度驗證

使用本地響應規範化(A- lrn網絡)不能改善沒有任何規範化層的模型A。因此，我們沒有在更深層次的架構(B-E)中使用標準化。
分類錯誤隨着深度增加而減小。
C（使用1 * 1）雖然比B好，但是沒有D（3 * 3）好，說明卷積的作用同樣重要
層數達到19層提升不在明顯，當對於更大的數據來說，也行可以繼續增加深度
作者還在B上測試使用5 * 5卷積核，結果是提示了7%的錯誤率在top-1上，說明更小的卷積核優於大尺寸卷積核
使用過尺度抖動增強訓練集確實有助於捕獲多尺度圖像統計。訓練圖像尺寸 $S\in[256;512]$

多尺度驗證

對於固定尺度S:Q = {S − 32, S, S + 32}.
對於多尺度 $S \in\left[S_{m i n} ; S_{m a x}\right]$ ： $Q=\left\{S_{\min }, 0.5\left(S_{\min }+S_{\max }\right), S_{\max }\right\}$

多組驗證

五、結論與思考

作者結論

在這項工作中，我們評估了用於大規模圖像分類的深度卷積網絡(高達19個權重層)。研究表明，表示法的深度有利於分類的準確性，而且使用傳統的ConvNet架構可以實現ImageNet challenge數據集的最先進性能(LeCun et al.， 1989;Krizhevsky等人，2012)，大幅增加深度。在附錄中，我們還展示了我們的模型能很好地概括廣泛的任務和數據集，匹配或優於建立在較低深度圖像表示的更復雜的識別管道。我們的結果再次證實了深度在視覺表現中的重要性。

總結

思考

參考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

cv論文筆記：Very deep convolutional networks for large-scale image recognition（VGG）

一、基本信息

二、研究背景

三、創新點

訓練圖像尺寸

單尺度

多尺度

四、實驗結果

單尺度驗證

多尺度驗證

多組驗證

五、結論與思考

作者結論

總結

思考

參考

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

cv論文筆記（動作識別1）：Convolutional Two-Stream Network Fusion for Video Action Recognition

數字圖像處理：自適應局部gamma校正

論文復現：Unsupervised Learning of Depth and Ego-Motion from Video（SfMLearner）

論文筆記：Unsupervised Learning of Depth and Ego-Motion from Video（無監督深度預測系列4：PoseCNN方法）

cv論文筆記：Semi-Supervised Deep Learning for Monocular Depth Map Prediction（無監督深度預測系列3：半監督方法）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結