工作找完了。。開始看論文了。。
papar: ImageNet Classification with Deep Convolutional Neural Networks 12年的一篇文章
總體結構:
一共有8層,5卷積3全連接。
一些結構上的細節:
3.1 ReLU Nonlinearity.
ReLU的引入是爲了解決梯度消失問題,同時抑制了overfitting。因爲作者用的訓練集爲imagenet,數據量還是很大的。同時還發現,ReLU能加速訓練。
3.2 Training on Multiple GPUs
一個GPU不夠,用了兩個並行的GPUs。
錯誤率分別降低1.7%和1.2%。
其實可以看到,不同的GPU,學習到的是不同的特徵。
3.3 Local Response Normalization
其中參數的值交叉驗證得到。
錯誤率分別降低1.2%與1.4%。
3.4 Overlapping Pooling
s=2,z=3.錯誤率降低0.4%。
實驗發現,overlapping pooling更不容易過擬合。
4. 抑制過擬合
4.1 Data Augmentation
a. 原圖256*256隨機取224*224。一張圖可以取2048個。
b. altering the intensities of the RGB channels in training images。
4.2 Dropout
訓練的時候,每個神經元有0.5的概率輸出爲0,這樣便沒有辦法往後與往前傳。
測試的時候,we use all the neurons but multiply their outputs by 0.5
(本結構中,全連接的第一和第二層用了dropout)
5. Details of learning
隨機梯度下降(SGD),with a batch size of 128 examples.
初始化權值 均值爲0,標準差爲0.01的高斯分佈。
6. Results
參考:
1. ImageNet Classification with deep convolutional neural networks 這篇博文中對結構有更詳盡的敘述。
2. 論文筆記 《ImageNet Classification with Deep Convolutional Neural Networks》 細節敘述
第一次寫論文博客。。先就這樣吧。。