alexnet筆記(ImageNet Classification with Deep Convolutional Neural Networks)

筆記一定要在看過paper的基礎上再學習,切記!!!
我建議paper看至少兩遍吧,我都是這樣做的,每一遍都有不同的收穫~


之前學習這篇paper的時候在有道雲筆記裏就做了筆記,不想再寫一遍啦,直接附上筆記分享地址

paper下載地址


還是寫了一遍,當然內容不大相同啦,建議都看看,加深印象哈哈


摘要:
6千萬參數,65萬神經元
5個卷積層(其中一些層後面跟着pooling層)+ 3層全連接層(其中最後一層是1000路的softmax層)
ReLU的使用(非飽和)
GPU的使用(加速)
dropout的使用(正則化方法)
15.3%的top-5測試集錯誤率


1 介紹:
大數據集ImageNet(15000000張圖片,22000個類別)
優化了GPU對2D卷積的實現
深度很重要


2 數據集:
訓練集(120萬張圖片)
驗證集(5萬張圖片)
測試集(15萬張圖片)
圖片大小是256x256
只對圖片像素進行了零均值化處理


3 結構:
1)ReLU(非飽和、非線性)收斂速度比tanh快6倍
2)兩塊GPU(GTX 580 3GB),只在第三層時候交叉
3)局部相應標準化(有一個稍微複雜點的公式,有幾個需要用驗證集訓練出來的超參數)
4)交叉的pooling層(核大小是3x3,步長是2)
5)整體結構:局部相應標準化層(LRN層)只在第1,2卷積層之後,maxpooling層在LRN層和第5卷積層之後,ReLU在每一層都用到,直接看下圖比較清楚。

這裏寫圖片描述


4 降低過擬合:
論文用到兩個主要的方法
1)數據增強
第一種方式是:從256x256的圖片中提取224x224的小patch,並水平翻轉,這樣訓練集就變成原來的2048倍。測試時,從四個角和中心提取224x224的小patch,並水平翻轉,對這10個圖片的輸出結果取平均做出最終的預測。
第二種方式是:調整訓練集圖片RGB通道的亮度(PCA)
2)dropout(0.5)分享權重,降低神經元的互適應性,測試時,所有神經元都用上,輸出乘以0.5。在全連接層的前兩層用dropout


5 學習的細節:
隨機梯度下降:batch size = 128 momentum = 0.9 weight decay = 0.0005
權重初始化:N(0,0.01)
第2,4,5卷積層和全連接層的偏置初始化爲常數1
其他層的偏置初始化爲常數0
學習率初始化爲0.01,當驗證集的錯誤率不再增加時,學習率除以10
對120萬訓練集圖片,一共訓練了90遍


6 結果:
這一部分沒什麼可說的,就是和之前的一些方法比較以及model ensemble的非常棒的效果


7 討論:
深度很重要
爲了簡化實驗,我們沒有用非監督來預訓練,但我們預期這樣會產生更好的結果
網絡更大訓練時間更長時,效果也會提升

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章