深度學習知識系列(三) 卷積網絡模型介紹

1、LeNet

在這裏插入圖片描述

    LeNet 誕生於 1994 年,是最早的卷積神經網絡之一,並且推動了深度學習領域的發展。這篇文章對之後的發展具有開創意義。在那個沒有GPU加速的年代,LeNet設計簡單,這也就使其處理複雜數據的能力有限。


2、AlexNet

在這裏插入圖片描述

    12年AlexNet誕生,並在ImageNet上取得了第一名的成績,在測試集上的top-1和top-5錯誤率爲37.5%和17.0%。

    在當時,算力仍然不足。作者利用了兩個GPU聯合訓練。也就是將一個模型的參數分佈在了兩個GPU上,訓練出來的AlexNet。這是卷積網絡輝煌的開始。

    使用了ReLU函數,一定程度上減小了梯度彌散問題,同時加快了訓練速度。

    重疊池化(Overlapping Pooling),在相鄰池化窗口之間有重疊部分,這使他們的top-1和top-5錯誤率分別降低了0.4%和0.3%。

    使用了0.5的dropoutbatch size設爲128Momentum設爲0.9學習率0.1、L2 weight decay爲5e-4,共使用了7層CNN


3、VGG

在這裏插入圖片描述

    14年VGG誕生,在ImageNet上取得了第二名的成績

    VGG的思想,使縱向加深網絡,顯著的增加了網絡層數,16層CNN

    大大的減少了kernel size,大量的使用3x3的卷積核,因爲多個小的濾波器的組合與一個大的濾波器的感受野差不多,但能夠大大的減少訓練參數

    但VGG過大的網絡造成了需要極其龐大的訓練資源(全連接層參數過多),訓練較慢,而且整個模型極大,有144M。


4、GoogLeNet

在這裏插入圖片描述

    14年GoogLeNet誕生,在ImageNet上取得了第一名的成績

    與VGG不同,GoogLeNet使橫向的加深網絡,提出了Inception結構

在這裏插入圖片描述

    在Inception模塊中

  • 提供更“寬”的網絡結構(1x1 3x3 5x5 ),使網絡可自由選擇更好的特徵,maxpooling則是去掉上一層卷積下來的冗餘信息。
  • 通過1x1的卷積核,實現降維和升維,達到減少參數的目的,其中,降維是利用了1x1的卷積核可線性組合不同通道上的特徵的特性。(這與稀疏網絡結構也密切相關)

    GoogLeNet通過使用Inception結構,極大的減少了模型的大小。


5、ResNet

在這裏插入圖片描述

    15年ResNet誕生,在ImageNet上取得了第一名的成績

    ResNet通過實驗得到,像VGG那樣簡單的堆疊不能夠提高網絡的性能,於是提出了殘差模塊

在這裏插入圖片描述

    當網絡不斷加深時,梯度爆炸與梯度彌散的問題將會出現,而殘差模塊的引入,通過將以後層的梯度與前面的層相聯繫,而解決了這一問題,這使得網絡的訓練變得很容易。

    有了殘差模塊之後,一般網絡的層數越高,性能越好,當然訓練也會變得越難。

    殘差模塊的作用就是feature重用,將前面層的簡單的feature與後面層的高維的feature進行聯繫。

    ResNet的內存佔用也很小,Res-164只有1.7M。

    ResNet也是在之後學習生涯中最常用的backbone之一。


6、ResNeXt

    16年ResNeXt誕生,其是ResNet與GoogLeNet的變體。即在Inception模塊上加入了殘差模塊。

在這裏插入圖片描述


7、DenseNet

在這裏插入圖片描述

    17年的DenseNet時ResNet的拓展,將殘差模塊拓展到了Dense block,即一個Dense模塊的每一部分都進行連接。

在這裏插入圖片描述

    這一舉看似粗暴,實則帶來不少好處。從 feature 來考慮,每一層 feature 被用到時,都可以被看作做了新的 normalization。DenseNet的模型會更加robust。

    天底下沒有免費的午餐,DenseNet這一操作也是其模型變得機器龐大,Dnese-100-24有27.2M。


8、SeNet

    17年SeNet誕生,在ImageNet上取得了第一名的成績

    其創新點在於其SE block

在這裏插入圖片描述

    圖中的Ftr是傳統的卷積結構,X和U是Ftr的輸入(C’xH’xW’)和輸出(CxHxW),這些都是以往結構中已存在的。SENet增加的部分是U後的結構:對U先做一個Global Average Pooling(圖中的Fsq(.),作者稱爲Squeeze過程),輸出的1x1xC數據再經過兩級全連接(圖中的Fex(.),作者稱爲Excitation過程),最後用sigmoid(論文中的self-gating mechanism)限制到[0,1]的範圍,把這個值作爲scale乘到U的C個通道上, 作爲下一級的輸入數據。這種結構的原理是想通過控制scale的大小,把重要的特徵增強,不重要的特徵減弱,從而讓提取的特徵指向性更強。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章