GoogLeNet論文總結思考

Going Deeper with Convolutions(GoogLeNet)

論文簡述

本文通過利用多尺度卷積,在特徵維度上採用密集子矩陣來構建稀疏表示,並使用1×1的結構降維,從而在計算需求適度增加的情況下,質量顯著提高。

論文要點

當前問題

最爲直觀的提升CNN網絡性能的方式,便是增加它的尺寸,包括深度(網絡層數)和寬度(每層的單元數),然而大尺寸網絡意味着:

  • 大量的參數,使網絡更容易過擬合(dropout在一定程度上解決這個問題)
  • 激增的計算資源使用量,如果增加的資源消耗沒有有效利用,那麼這些資源便浪費掉了。

解決方法

引入稀疏性並將全連接層,甚至是卷積層,替換成稀疏型。

  • 實際中,稀疏矩陣需要更復雜的工程和計算基礎設施
  • 當前機器學習系統僅通過卷積來利用空間維度上的稀疏性(局部感受野,相關性強的部分,且共享參數大大降低計算量)

理論一:如果數據集的概率分佈可以通過一個大型稀疏的深度神經網絡表示,則最優的網絡拓撲結構可以通過分析前一層激活的相關性統計和聚類高度相關的神經元來一層層的構建
理論二: Hebbian principle(neurons that fire together, wire together )
如果兩個神經元常常同時產生動作電位,或者說同時激動(fire),這兩個神經元之間的連接就會變強,反之則變弱。
–>將相關性強的特徵聚集在一起。


如果將稀疏矩陣聚類爲相對密集的子矩陣,則會有更佳的性能。原理及論文理解參考:https://blog.csdn.net/docrazy5351/article/details/78993269
因此,Inception結構提出的主要思想是考慮怎樣近似卷積視覺網絡的最優稀疏結構並用容易獲得的密集組件進行覆蓋。—特徵維度上的稀疏連接
Inception結構:

  • 多尺度卷積
    各個尺度的卷積可看爲稀疏分佈的特徵集(並不是圖像的所有元素都會在該尺度上存在意義或者激活)會產生很多冗餘信息,因此inception在多個尺度上提取特徵(1×1,3×3,5×5),輸出的特徵就不再是均勻分佈,而是相關性強的聚集在一起,這可以理解成多個密集分佈的子特徵集。
  • 1×1卷積核
    作用一:降維
    在3×3和5×5卷積核前,先將維度降低,從而減少計算量。
    作用二:增強非線性

在這裏插入圖片描述
每層輸出的通道數等於4個分支通道數的總和,且max pooling的stride均爲1,不改變特徵圖的大小。最終生成的網絡便是多個Inception的疊加。且最終結構中在分類器前使用了average pooling。
額外分類器:用來克服梯度消失問題以及提供正則項,這些loss在以0.3的權重加入到整體的loss中。
在這裏插入圖片描述

思考

  • 稀疏矩陣表達形式以及利用密集子矩陣的方式很具有參考性
  • 從這幾篇論文可以看出,在實際訓練過程,數據擴增(包括尺寸,平移,裁剪尺寸,光度畸變,色彩比例等等),還有模型融合都十分有效。

小吐槽

可能是因爲論文涉及的很多數學概念都一知半解的,總覺得這篇論文讀起來很吃力,就給我一種抓不到重點的感覺。
有部分待理解的內容需要等看完檢測部分的基本知識才能理解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章