一、AlexNet模型創新點總結如下:
1)使用ReLu作爲激活函數,成功解決了Sigmoid的梯度彌散問題
2)訓練時加入了Dropout層,防止過擬合情況發生
3)在CNN中使用重疊的最大池化,並提出步長比池化核尺寸要小,這樣池化層輸出之間有重疊和覆蓋,提高了特徵的豐富性
4)提出了LRN層,對局部神經元的活動創建競爭機制,,使得其中響應比較大的值變得相對更大,並抑制其他反饋較小的神經元,增強了模型的泛化能力
5)使用CUDA加速深度卷積網絡的訓練
6)數據增強,隨機從256*256圖像中截取224*224大小的區域,以及水平翻轉,得到(256-224)的平方X2=2048倍的數據量,大大減輕了過擬合,提高泛化能力
二、VGGNet模型創新點總結如下:
1)數據層堆疊,通過2至3個3*3卷積層堆疊來形成5*5和7*7大小的感受野。其中2個3*3的卷積層可以形成5*5大小的感受野,第一參數量更少,比1個7*7的卷積層擁有更少的參數量,只有後者的(3*3*3)/ (7*7)=55%的參數量,擁有更多的非線性變化,3個卷積層可以進行3次非線性變化,而1個卷積層只能1次
2)訓練和預測時的技巧,訓練時先訓練級別A的簡單網絡,再複用A網絡的權重來初始化後面的幾個複雜模型,這樣訓練收斂的速度更快。預測時採用Multi-Scale的方法,同時還再訓練時VGGNet也使用了Multi-Scale的方法做數據增強
3)得出LRN層作用不大,越深的網絡效果越好。1*1的卷積也是很有效的,但是沒有3*3的好,大一些的卷積核可以學習更大的空間特徵
三、GoogleNet模型創新點總結如下:
Googlenet參數量更少效果更好。除了因爲模型層數加深,表達能力更強,還有兩點:1、去除了最後的全連接層,用全局平均池化層(即將圖片尺寸變爲1*1)來取代它,全連接層幾乎佔據了AlexNet和VGGNet的90%的參數量,所以去了後不僅減少了參數,而且減輕了過擬合;2、Inception Module提高了參數的利用率。
主要創新點如下:
1)Factorization into small convolution的思想,很有效,可以降低參數量,減輕過擬合,增加網絡非線性的表達能力。如:將7*7的卷積拆分成1*7卷積和7*1卷積,比拆分成3個3*3卷積更節約參數,同時比7*7卷積多了一層非線性擴展模型表達能力
2)Inception Module模塊,用多個分支提取不同抽象程度的高階特徵的思路很有效,可以豐富網絡的表達能力。這些Inception Module的結構只在網絡的後便出現,前面還是普通的卷積層
3)卷積網絡從輸入到輸出,應該讓圖片尺寸逐漸減小,輸出通道數逐漸增加,即讓空間結構簡化,將空間信息轉化爲高階抽象的特徵信息。
4)去除了最後的全連接層,用1*1卷積來取代,這樣大大減少了參數量,並且減輕了過擬合。