1.文章內容的介紹
這篇文章主要解決以下兩個問題:
- However there is no clear understanding of why they perform so well(卷積神經網絡特徵提取方面表現好的原因是什麼?);
- how they might be improved.(如何改進這個卷積神經網絡結構?)。
卷積神經網絡在ImageNet的基準測試中比之前的模型有很大的改善,同時遷移到其他的數據集也表現良好,同時文章提出一種可視化的技術,可以用來觀測模型特徵提取層和分類器在模型訓練過程中的起到的作用,以便於改進模型的結構。
2.文章內容的描述
卷積和反捲積的結構:通過反捲積的網絡結構模擬卷積網絡結構,使用數據可視化的方式,理解卷積層每層的作用。
如圖1所示,圖的左半部分是反捲積網絡結構,右邊是卷積網絡結構;Each layer consists of(卷積網絡結構主要包含:)
- convolution of the previous layer output (or, in the case of the
1st layer, the input image) with a set of learned fifilters; (局部感受野) - passing the responses through a rectifified linear function (relu(x) = max(x, 0))(非線性的結構映射);
- [optionally] max pooling over local neighborhoods (最大池化)and
- [optionally] a local contrast operation that normalizes the responses across feature maps(歸一化);
反捲積結構:
(i) unpool, (反池化:記錄池化操作過程中變量的位置,然後求解近似的逆值);
(ii) rectify(重建relu非線性)and ;
(iii) fifilter to reconstruct the activity in the layer beneath that gave rise to the chosen activation(感受器的反轉).
卷積的可視化:通過在模型訓練過程中觀察不同特徵層的變化和整個模型構建過程層次的特徵;通過選擇不同的模型結構和隨機的遮擋一部分特徵,觀測每個結構的實際作用。
實驗:通過改變模型的結構,如過濾器的尺寸大小(11x11,7x7,5x5),滑動步長(2,3,4),卷積層數,全連接層等,發現這些結構的改變都會對實際的效果產生較大的影響。通過調節這些超參數,可以獲得最佳的結果。
圖1 卷積和反捲積網絡結構圖
3.總結
卷積網絡的運用可以更好獲取複雜的特徵,學習到更多的非線性的特徵,在圖像特徵提取方面表現出良好的性能,同時也存在一些問題:需要更多的數據;卷積計算量大,需要更多的GPU資源;模型變得更加複雜,容易過擬合。
文章的主要貢獻在與提出可視化的技術手段,通過實驗的方式比較直觀的瞭解卷積網絡在特徵提取過程和模型訓練過程中所起的作用,有利於優化整個模型的網絡結構,在減少模型複雜度的同時,提高模型的性能。