2012到2020主要的CNN架構總結



來源:DeepHub IMBA

本文約1600字,建議閱讀5分鐘本文與你討論每個機器學習工程師都應該知道的十大CNN架構。


卷積神經網絡(CNN或ConvNet)是理解圖像內容的最佳學習算法之一,並且在圖像分割,分類,檢測和檢索相關任務中表現出出色。有許多公司,例如Google,Microsoft,AT&T,NEC和Facebook,已經建立了活躍的研究小組來探索CNN的新架構。

什麼是CNN?

CNN被設計用於圖像識別任務,最初是用於手寫數字識別的挑戰(Fukushima 1980,LeCun 1989)。CNN的基本設計目標是創建一個網絡,其中網絡早期層的神經元將提取局部視覺特徵,而後期層的神經元將這些特徵組合起來以形成高階特徵。

在幾乎每個CNN中,您都會看到三種主要的圖層類型。

卷積層

卷積層由一組過濾器(也稱爲內核)組成,這些過濾器在輸入數據上滑動。每個內核都有一個寬度,一個高度和一個寬度×高度權重,用於從輸入數據中提取特徵。在訓練時,內核中的權重使用隨機值進行初始化,並將根據訓練集進行學習。

池化層

池化層(或下采樣層)用於減少特徵圖的維數,從而從特徵圖中保存最相關的信息。在池化層中,過濾器會在輸入數據上滑動並應用池化操作(最大,最小,平均)。最大池是文獻中使用最多的。

全連接層

是由三種類型的層組成的多層感知器:輸入層,隱藏層和輸出層。輸入層接收CNN生成的要素。隱藏層是一系列具有權重的神經元,將在訓練步驟中學習。一個MLP由一個或多個隱藏層組成。

輸出層也是神經元序列。但是,它具有不同的激活函數。例如softmax函數用於生成問題範圍內每個類別的概率。

主要CNN架構

多年來,已經開發出CNN架構的變體,從而在深度學習領域取得了驚人的進步。LeNet是CNN的第一個成功應用,由Yann Lecun在1990年代開發。最著名的是LeNet體系結構,該體系結構用於讀取郵政編碼,數字等。最新的工作稱爲LeNet-5,它是一個5層的CNN,其在獨立字符識別中的準確度達到99.2%。

在本文中,我們將討論每個機器學習工程師都應該知道的十大CNN架構。

AlexNet

2012年,Alex Krizhevsky以84.6%¹的測試準確度贏得了ImageNet大規模視覺識別挑戰賽的冠軍。Krizhevskyus使用GPU訓練AlexNet,從而可以更快地訓練CNN模型,並引起了人們的興趣,並開始了基於CNN的新工作。

設計中使用五個卷積層,最大池層,ReLU作爲激活函數,三個全卷積層和dropout。

VGG-16

牛津的模型以92.7%的精確度贏得了2013年的ImageNet競賽²。它使用一堆卷積層進行嵌套,在最小的幾層中插入了具有小的接收場的卷積層,而只有少數幾層具有大的接收場。

VGG-19

該模型與VGG-16類似,但是深度達到了19層。

Google Net

Google的網絡以93.3%的準確度贏得了2014年ImageNet競賽。它由22層和一個新引入的構建模塊(稱爲inception )組成。所以該網絡也被稱作inception net

Inception

Inception網絡是CNN分類器發展的重要里程碑。在CNN誕生之前,它只是將堆疊的卷積層越來越深,希望獲得更好的性能。它使用三種不同大小的濾波器(1x1、3x3、5x5)對輸入執行卷積。

ResNet

微軟的模型以96.4%的準確度贏得了2016年ImageNet競賽。

由於引入了殘差塊及更深的層數(152層),因此衆所周知。其餘的塊通過引入跳過連接來解決如何訓練一個更深的網絡結構的問題。有人已經通過殘差塊達到了1000層的網絡深度。

Shuffile Net

它是一種極其高效的CNN架構,專爲具有10–150 MFLOP(每秒兆浮點運算)的計算能力的移動設備而設計。在保持準確性的同時,利用逐點分組卷積和通道混洗來降低計算成本。與Image Net分類上的Mobile Net系統相比,它獲得了更低的top-1錯誤。

Squeeze Net

對於相同精度的AlexNet,SqueezeNet可以快三倍,而小500倍。

壓縮(squeeze)模塊僅包含1x1過濾器,這意味着它的工作方式類似於在同一位置的特徵點上工作的完全連接圖層。顧名思義,其好處之一就是減少了特徵圖的深度。減小厚度意味着壓縮後下一層中只需要3x3卷積核進行計算。它提高了速度,因爲3x3卷積核的計算量是1x1的卷積核的9倍。

Dense Net

DenseNet以前饋方式將每一層連接到其他每一層。它具有L層L(L + 1)/ 2個直接連接。對於每一層,將所有其他層的特徵圖用作輸入,並將其特徵圖用作所有後續層的輸入。DenseNets具有幾個引人注目的優勢:它們減輕了消失梯度的問題,增強了特徵傳播,鼓勵了特徵重用,並大大減少了參數數量。

ENet

Efficient  Net能夠實時執行像素級語義分割。ENet速度提高了18倍,所需的FLOP(每秒浮點運算)減少了75倍,參數減少了79倍,並提供了與現有模型相似或更高的精度。Enet是語義分割中最快的模型。

作者:

Trung Anh Dang

原文地址:

https://medium.com/@dangtrunganh/top-10-cnn-architectures-every-machine-learning-engineer-should-know-68e2b0e07201

編輯:黃繼彥

校對:林亦霖

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章