深度學習核心技術實戰——圖像分類模型

原創

2018-08-22 03:53

圖像分類模型

1.LeNet-5：每一個卷積核都會形成一個特徵圖，3個通道則是每個通道是不同的卷積核，但是最後是將三通道的卷積值相加，最後變成一個通道，所以5*5*64的卷積核，感知範圍是5*5，最後出來是64層（個特徵圖）。每個卷積核都包括w（權重）和b(bias偏置)。LeNet-5最初用於手寫數字識別。

2.AlexNet：5個卷積層和3個全連接層最後輸出層是1000類的Softmax。

使用如下創新：

1） ReLU 非線性激活函數

2）多GPU訓練

3）局部響應歸一化

4）重疊池化

3.降低過擬合的方法：

1）數據增強：對圖像數據進行變換

2） Dropout 隨機的關閉一定比例的節點（神經元）

4.VGGnet:最後輸出爲4096維，全連接層是1000維（1000類別）。最後一層是Softmax層

隱層使用ReLU

5.GoogleNet:2014ILSVRC分類任務冠軍。22層

創新點：用全局平均池化層取代全連接層，借鑑了NIN（network in network）的做法

MLP網絡能夠更好的擬合局部特徵，也增強了輸入局部的表達能力，NIN不在分類層前使用全連接，而是採用全局平均池化。

提高深度網絡效果的方式是：增大網絡尺寸。但是帶來了更多的參數和計算資源需求。

改善方案：

1）引入稀疏性

2） Hebbin原則：兩個神經元同步激發，則他們之間的權重增加，如果單獨激發，則權重減少。

GoogleNet就是利用Inception自動構建非一致結構的神經網絡。

ResNet：殘差網絡shortcut 一定程度上解決了過深模型梯度發散導致無法訓練的問題。

DenseNet 從第一層開始每層都作爲後面各層的輸入。

Dual Path Network：雙通道神經網絡

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.