深度學習基礎模型之VGG

1.VGG概述

論文:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
VGG是ImageNet Challenge2014年定位任務的第一名,分類任務的第二名(第一名是GoogLeNet)。VGG到現在非常多的網絡結構都會用到VGG,最重要的原因就是特徵提取部分VGG非常好,例如SRGAN利用VGG的特徵提取的部分來得到特徵圖進而構造損失函數。
VGG網絡結構分爲好多種,但是最重要的一個點也是目前大家都認可的一個點就是,利用多個尺寸小的卷積核代替一個尺寸大的卷積核,例如三個3×3的卷積核可以代替一個7×7的卷積核,因爲深度增加了,所以引入了更多的非線性,並且有更大的感受野,對特徵提取非常有幫助。

2.模型配置

模型是在AlexNet的基礎上進行改進的。
輸入:224×224RGB圖像。唯一的預處理是從每個像素中減去訓練集上計算的RGB均值。
濾波器設置:就是卷積核,都是用尺寸爲3×3的卷積核。用多個3×3來代替AlexNet種的大尺寸卷積核。有一些模型中還利用了1×1卷積濾波器.
1×1的卷積是對單個像素多個通道進行卷積,可以看作是多通道特徵的線性變換,而且引入非線性量(後面跟激活函數),可以方便起到維度變換的目的,而且可以減少參數(例如13×13×192特徵圖利用3×3卷積核變換到64,那麼需要192×3×3×64=110,592‬,如果先通過1×1變換爲512則需要(192×1×1×64+ 64×3×3×64 )=49,152 )。
全連接層:在卷積過後是三個全連接(FC)層:前兩個每個都有4096個通道,第三個執行1000維ILSVRC分類,因此包含1000個通道(一個通道對應一個類別)。最後一層是soft-max層。所有網絡中全連接層的配置是相同的。
激活函數:每一層隱藏層之後都跟了ReLu激活函數來引入非線性。
相對於AlexNet來說,沒有使用LRN因爲實驗發現添加LRN並沒有效果上的提升反而增加了內存消耗和計算時間。

詳細結構

在這裏插入圖片描述
每種模型的參數數量
在這裏插入圖片描述
事實上VGG需要訓練的參數相對來說是非常大的。但是相對於使用大卷積來說,參數並不大,而且因爲深度加深,感受野更大。

VGG的一些特點

結構上:
1、應用3×3卷積代替大尺寸卷積,有些還利用了1×1卷積,引入更多的非線性,增加深度增大感受野,但是在參數上和原來相比並不多。
訓練上:
1、隨着訓練,學習率需要衰減
2、爲了使模型能訓練,我們會裁剪圖片爲224×224,可以通過隨機裁剪的方式來豐富訓練集
3、訓練很深的網絡,可以先訓練淺層網絡,參數爲隨機初始化。然後將訓練好的淺層網絡參數作爲對應的深層網絡層的初始化參數,可以加速收斂。
評估上:
1、使用多尺度評估,test使用不同尺度的圖片輸入。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章