【論文】Deep Pyramidal Residual Networks(譯)

論文貢獻

  1. 提出了一種新的殘差單元(移除了Pre-activation ResNet殘差單元中的Relu函數)

  2. 設計了一種逐步增加所有單元的特徵圖維數的金字塔殘差結構

Abstract

​ 近年來,深卷積神經網絡(DCNNs)在圖像分類中表現出了顯著的性能。一般來說,深度神經網絡結構是由大量卷積層構成的堆棧,它們通過池來沿空間維度執行下采樣,以減少內存使用。同時,特徵映射維數(即通道數)在下采樣位置急劇增加,這對於確保有效性能至關重要,因爲它增加了高級屬性的多樣性。這也適用於殘差網絡,並且與它們的性能密切相關。在本研究中,我們並沒有在進行下采樣的單元中大幅增加特徵圖的維數,而是逐步增加所有單元的特徵圖維數,以儘可能多地包含位置。這種設計與我們的新見解一起被深入討論,證明是提高泛化能力的有效手段。此外,我們還提出了一種新的殘差單元,利用這種新的網絡結構可以進一步提高分類精度。在基準CIFAR-10、CIFAR-100和ImageNet數據集上的實驗表明,與原始殘差網絡相比,我們的網絡結構具有更好的泛化能力。

1.Introduction

​ 深卷積神經網絡(DCNNs)的出現極大地促進了計算機視覺中複雜任務(13、23、2、3、19)的求解,並顯著提高了性能。自從LeNet[16]提出將深度神經網絡架構用於計算機視覺任務以來,高級架構AlexNet[13]被選爲2012年ImageNet競賽的獲勝者[22],與傳統方法相比有很大差距。隨後,相繼提出了ZF-net[35]、VGG[25]、GoogleNet[31]、殘差[7、8]和初始殘差網絡[30],以展示網絡體系結構的進步。特別是,殘差網絡(ResNets)[7,8]利用所提出的殘差單元內的shortcut連接[29]的概念進行殘差學習,使得訓練更深層次的網絡架構成爲可能。較深的網絡結構以其優越的性能而聞名,這些網絡結構通常具有具有非線性的深度疊加捲積濾波器[25,31]。

​ 就特徵圖維數而言,傳統的方式使用多個卷積核來增加輸出特徵圖維數,通過增大卷積時的Stride或者使用池化的方式縮小特徵圖的大小,這是目前廣泛採用的控制特徵圖大小的方法,因爲隨着特徵圖維數的增加,提取多種高層特徵對於分類任務是非常有效的。AlexNet[13]和VGG[25]等體系結構利用這種增加特徵映射維數的方法來構造它們的網絡體系結構。最成功的深層神經網絡ResNets[7,8],由He等人引入。[7] 也遵循此方法進行濾波器堆疊。

​ 根據Veit等人的研究。[33],ResNets被認爲是相對較淺網絡的集合。這些研究人員表明,從Resnet中刪除單個殘差單元,即僅保留一個shortcut連接,不會顯著影響整體性能,證明刪除殘差單元等同於刪除集成網絡中的一些淺層網絡。與此相反,在普通網絡架構(如VGG網絡[25])中刪除單個層會導致額外的嚴重誤差,從而損壞網絡。

​ 然而,在ResNets的情況下,研究發現,在特徵圖維數增加一倍的降採樣殘差單元中,刪除構建塊仍然會顯著增加分類誤差。有趣的是,當使用隨機深度[10]訓練殘差網絡時,發現刪除帶有下采樣塊不會降低分類性能,如[33](論文地址:https://arxiv.org/pdf/1605.06431v2.pdf)中的圖8所示。人們可能認爲,這種現象與隨機深度所帶來的分類性能的全面提高有關。

​ 基於Veit等人對殘差網絡的整體解釋。[33]和具有隨機深度的結果[10],我們設計了另一種方法來處理與刪除下采樣單元相關的現象。 在該方法中,增加了各層特徵地圖的維數,將負荷集中在受下采樣影響的殘差單元的位置,使其均勻分佈在所有單元上。結果表明,使用新的網絡結構,刪除具有下采樣的單元並不會顯著降低性能。在本文中,我們將這種網絡結構稱爲深層“金字塔”網絡和具有殘差型網絡結構的“金字塔”殘差網絡。 這反映了這樣一個事實,即網絡體系結構的形狀可以比作金字塔的形狀。也就是說,通道的數量作爲層出現的深度的函數而逐漸增加,這類似於其形狀從頂部向下逐漸加寬的金字塔結構。該結構與圖1中的其他網絡結構進行了比較。主要貢獻總結如下:

​ 1.介紹了一種深層金字塔殘差網絡(PyramidNet)。 其關鍵思想是通過逐漸增加特徵映射維數,而不是在下采樣的每個殘差單元上大幅增加特徵映射維數。 此外,我們的網絡架構是plain和ResNet網絡的混合體,在增加特徵映射維度時使用零填充的身份映射shortcut連接。

​ 2.還提出了一種新的殘差單元,可以進一步提高基於ResNet的體系結構的性能(與目前最先進的網絡體系結構相比)。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-wTbzpksG-1586252349927)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405141242139.png)]

​ 本文的其餘部分組織如下。第二節介紹了我們的金字塔網絡,並介紹了一種可以進一步改進ResNet的新的殘差單元。第三節通過幾次討論詳細分析了我們的金字塔網絡。第四節給出了實驗結果,並與幾種先進的深度網絡結構進行了比較。 第五部分對全文進行了總結,並對下一步工作提出了建議。

2.Network Architecture

2.1 Feature Map Dimension Configuration

​ 在這一節中,我們將介紹金字塔網絡的網絡結構。金字塔網絡與其他網絡結構的主要區別在於,信道的維數逐漸增加,而不是保持維數直到出現具有下采樣的殘差單元。圖1(d)顯示了一個示意圖,以便於理解我們的網絡體系結構。

​ 大多數深度CNN架構[7、8、13、25、31、35]採用的方法是,當feature map的尺寸減小時,feature map的尺寸會大幅度增加,直到遇到向下採樣的層時,feature map的尺寸纔不會增加。對於CIFAR數據集[12]的原始ResNet,屬於第n組的第k個殘差單元的feature map維數Dk可以描述爲:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-rDZUjD7K-1586252349928)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405170603857.png)]

其中 n (k)∈{1,2,3,4}表示 第k個殘差單元所屬殘差塊的索引。 屬於同一組的殘差單元具有相同的特徵映射大小,第 n 組包含Nn個殘差單元。 在第一組中,只有一個卷積層將 RGB 圖像轉換成多個特徵映射。 對於第 n 組,當通過Nn個殘差單元后,特徵尺寸減半,維數增加一倍。 我們提出了一種增加特徵映射維數的方法如下:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BWOFN0DB-1586252349929)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405171030102.png)]

其中N表示所有殘差單元的總數,定義爲[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-HzePl7sQ-1586252349934)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405171142365.png)] 。維數以 α / n 的階躍因子增加,每組最終單元的輸出維數爲16 + (n-1) α/3,每組殘差單元數相同。 我們的網絡體系結構的細節如Table 1所示。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-zDiP0lqO-1586252349935)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405171347466.png)]

​ 上述公式(2)是基於增加維數的加法擴大階躍因子。 然而,當然,基於乘法擴展(即乘以一個因子以幾何方式增加信道維度的過程)提供了另一種創建金字塔式結構的可能性。 那麼公式(2)可轉換如下:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-dxaWqOCt-1586252349937)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405171649951.png)]

​ 加法和乘法金字塔網的主要區別在於,加法網絡的特徵映射維數呈線性遞增,而乘法網絡的特徵映射維數呈幾何遞增
也就是說,輸入端層的維數緩慢增加,輸出端層的維數急劇增加。 這個過程類似於最初的深層網絡體系結構,如 VGG [25]和 ResNet [7]。 下圖展示了加法和乘法金字塔網絡圖。(a)是使用公式(2)的加法遞增,(b)是使用公式(3)的乘法遞增。本文第四部分,比較了加法金字塔網網絡(公式2)和乘法金字塔網絡(公式3)。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-0DGFGVvf-1586252349938)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405172050523.png)]

2.2 Building Block

​ 殘差單元中的Building Block(卷積->BN->ReLu)是ResNet的核心結構。顯然,爲了最大限度地提高網絡體系結構的性能,設計一個好的Building Block是必不可少的。如圖6所示,這些層可以以不能的形式組合構成單個Building Block。我們發現圖6 (d)所示的構建塊是最有潛力價值的,因此我們將這個結構作爲構建塊包含在我們的金字塔中。下一節將繼續討論這個問題。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-uf1FqqPF-1586252349939)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405201418171.png)]

就shortcut而言,許多研究人員要麼使用基於identity mapping(恆等映射),要麼使用基於convolution-based projection(卷積的映射)。然而,隨着金字塔網網絡的特徵映射維數在每個單元上的增加,我們只能考慮兩種選擇:零填充的恆等映射shortcut和1×1卷積的投影shortcut。但是,正如He等人[8]的工作中所提到的,1×1的卷積shortcut在殘差單元過多的情況下效果較差,即,此shortcut不適合非常深入的網絡架構。

3. Discussions

​ 在這一節中,我們將深入研究金字塔網絡的結構,以及提出的新的殘差單元。我們在這裏所做的實驗支持了這項研究,並證實從我們的網絡架構中獲得的見解可以進一步提高現有的基於Resnet的架構的性能。

3.1. Effect of PyramidNet

​ 根據 Veit 等人的工作[33] ,ResNets可以被看作是相對較淺的網絡的集合,以下足以證明,刪除ResNets 的殘差單元中的單個Building Block會造成較小的分類損失,而從諸如VGG[25]這樣的普通網絡中刪除層會嚴重降低分類率。然而,在原始的和激活前的ResNets [7,8]中,另一個值得注意的方面是,刪除具有降採樣的單元(並將特徵維數增加一倍)仍然會大幅度降低性能[33]。同時,根據Veit等人[33]的實驗,當使用隨機深度[10]時,沒有觀察到這種現象,性能也得到了改善。我們的金字塔網絡的目標是通過嘗試逐步增加特徵圖的維數來解決這個問題,而不是在一個殘差的單元上增加一倍,並平均分配增加特徵圖的負擔。我們觀察到我們的金字塔網確實解決了這一現象,同時提高了整體性能。我們進一步分析了我們的金字塔網的影響,通過比較它與預激活ResNet,與以下實驗結果。首先,我們將金字塔網的訓練和測試誤差曲線與圖3中預激活的ResNet[8]的訓練和測試誤差曲線進行比較。使用110層的標準預活化ResNet進行比較。PyramidNet,我們使用一個110層的深度的擴大因子α= 48;它的參數數量(1.7M)與激活前的ResNet相同,以便進行公平的比較。結果表明,我們的金字塔網具有優越的測試精度,從而證實其更大的泛化能力相比現有的深層網絡。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-eFXrNs2Z-1586252349940)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405205356428.png)]

​ 其次,我們通過刪除單個單元后的性能評估來驗證我們的金字塔的整體效果,類似於Veit等人的實驗。結果如圖4所示。正如Veit et al.[33]所提到的,與VGG[25]這樣的plain網絡相比,刪除單個單元只會造成輕微的性能損失。然而,在預激活ResNet的情況下,刪除下行採樣的塊往往會對分類精度產生較大的影響,而在我們的金字塔網絡中則不會出現這種情況。此外,從預激活的ResNet和我們的PyramidNet中刪除單個單元后,基線結果與結果的平均誤差分別爲0.72%和0.54%,結果表明,我們的金字塔網比原金字塔網的整體效應更強,泛化能力得到了提高。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-2MU7OmIV-1586252349941)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200405214524029.png)]

3.2 Zero-padded Shortcut Connection

​ ResNets和pre-activation ResNets[7,8]研究了幾種快捷方式,如identity-mapping(恆等映射)shortcut方式和projection shortcut方式。在[8]中的實驗結果表明,與其他shortcut方式相比,恆等映射shortcut方式是更合適的選擇。由於恆等映射沒有參數,因此與其他類型的shortcut相比,它的過擬合可能性較低;這確保了改進的泛化能力此外,它可以根據身份映射純粹地通過梯度,因此在訓練階段提供了更多的穩定性。

​ **在我們的金字塔網的情況下,恆等映射不能單獨用於shortcut,因爲特徵映射的維數在各個殘差單元之間是不同的。**因此,只有一個零填充的shortcut或projection shortcut方式可以用於所有殘差單元。如在[8]中所討論的,projection shortcut 捷徑可能會阻礙信息傳播並導致優化問題,特別是對於非常深的網絡。另一方面,我們發現填充爲零的shortcut方式不會導致過度擬合問題,因爲不存在額外的參數,而且令人驚訝的是,與其他快捷方式相比,它顯示了顯著的泛化能力。

​ 我們現在檢查零填充的恆等映射shortcut方式將屬於第n組的第k個殘差單元reshape成第l個特徵圖的向量[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-5KcFvRF6-1586252349942)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407110734425.png)][外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-E7FVWjeL-1586252349943)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407110801400.png)]
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-3ZuGDUOD-1586252349944)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407110836310.png)]表示第k個殘差單元的第l個殘差函數,[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-CtrITjw6-1586252349945)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407110931818.png)]表示第k個殘差單元預先定義的通道數。由式(4)可知,對於zero padded的 identity-mapping shortcut 方式使得[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-rsjBwcS4-1586252349946)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407110734425.png)]包含了殘差網絡和plain網絡的輸出。因此,我們可以推測每一個zero padded的identity-mapping shortcut方式都可以看做一個混合的殘差網絡和plain網絡,如圖5所示。此外,我們的金字塔網絡增加了每殘差單元的通道維數,殘差網絡與palin網絡的混合效應也顯著增加。圖4表明了金字塔網絡的測試誤差不像預激活ResNet的測試誤差那樣振盪的結論。最後,我們研究了幾種類型的shortcut方式:(a)projection shortcut(1x1)與恆等映射結合;(b)使用零填充與projection shortcut相結合;(c)僅使用projection shortcut(1x1);(d)使用零填充的恆等映射,包含如表2中所示的零填充標識映射shortcut方式。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-8b7f9E3m-1586252349947)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407112005243.png)]
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-PSyuqBkn-1586252349949)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407112555140.png)]

3.3 A New Building Block

​ 爲了最大限度地提高網絡的性能,很自然地會問這樣一個問題:“我們能否通過以更有原則的方式改變構建塊內部的堆疊元素來設計一個更好的構建塊?”在關於ResNets[7]的原始論文中提出了第一種構建塊類型,隨後在關於 pre-activation ResNets[8]的論文中又提出了另一種構建塊類型來回答這個問題。此外, pre-activation ResNets試圖通過重新設計殘差模塊來解決[8]的逆向梯度流動問題;試驗證明這是成功的。然而,雖然發現了 pre-activation前的殘餘單元,其性能得到了經驗上的改善,但對可能的組合還沒有進行進一步的研究,留下了改進的潛在空間。接下來,我們嘗試從兩個角度來回答這個問題,即考慮校正線性單元[20]和批量標準化[11]層。

3.3.1 ReLUs in a Building Block

​ 在殘差單元的構建塊中包含ReLUs[20]是非線性所必需的。然而,我們根據經驗發現,性能可能會隨着ReLUs的位置和數量而變化。這可以與原始的ResNets[7]進行討論,結果表明,隨着網絡的深入,性能會提高;然而,如果深度超過1000層,仍然會發生過擬合,其結果不如淺網格生成的結果準確。
​ 首先,我們注意到在添加剩餘單元之後使用ReLUs會對性能產生負面影響:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-HKvWqWaO-1586252349950)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407120029741.png)]

而ReLUs似乎有過濾非負性元素的功能。Gross和Wilber[5]發現,在每次使用shortcut連接添加ReLUs之後,簡單地從原始ResNet[7]中刪除ReLUs會導致性能的小改進。這可以理解爲,ReLUs在加法後向後續剩餘單元提供非負的輸入,因此shortcut連接始終是非負的,卷積層在加法前負責負輸出;這可能會降低在[8]中分析的網絡體系結構的整體能力。He等人提出的預激活ResNets也克服了這個問題,預激活的殘餘單元將BN層和ReLUs置於卷積層之前(而不是之後):

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-LPnJfHrA-1586252349951)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407120209951.png)]

添加後刪除ReLUs以創建標識路徑。因此,即使在深度超過1000層的情況下,總體性能也有了很大的提高,而沒有過度擬合。此外,Shen等人[24]提出了加權殘差網絡結構,該結構將ReLU定位在殘差單元內(而不是在添加後定位ReLU)來創建一個映射路徑,並證明該結構即使在超過1000層的深度也不會過度擬合。

​ 其次,我們發現在每個殘差單元的塊中使用大量的ReLU函數可能會對性能產生負面影響。刪除每個殘差單元模塊中第一個ReLu函數,如圖6所示(b)和(d),發現提高性能與塊如圖6所示(a)和©,通過實驗,我們發現,刪除第一個ReLU堆棧是更可取的,其他ReLU應該保留,確保非線性。刪除圖6 (a)中的第二個ReLU後,block變爲BN-ReLU-Conv-BN-Conv,可以看出,在這些block中,卷積層依次定位,沒有ReLUs來削弱它們之間的表示權。但是當我們移除第一個ReLU時,block變成了BN-Conv-BN-ReLU-Conv,此時兩個卷積層被第二個ReLU隔開,從而保證了非線性。表3中的結果證實,刪除第一個ReLU如圖6中(b)和(d)所示結構可以提高性能。因此,如果使用適當數量的ReLU來保證特徵空間流形的非線性,則可以去掉剩餘的relu來提高網絡性能。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BGCJpjqN-1586252349952)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407121027414.png)]

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ugDKhqc2-1586252349955)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407121615181.png)]

3.3.2 BN Layers in a Building Block

​ BN層的主要作用是對激活進行歸一化,以達到快速收斂和提高性能的目的。表3中所提供的四種結構的實驗結果表明,BN層可以最大限度地提高單個殘差單元的性能。BN層對如下方程進行仿射變換:

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-8rrd3vQ1-1586252349956)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407121833045.png)]

γ和β學習地圖每激活特性。我們實驗發現了γ和β可以趨近於0。這意味着,如果學會了γ和β都接近0,那麼相應的激活被認爲是不會有用的。加權的ResNets[24],其中可學習的權值出現在其構建塊的末端,也同樣被學習以確定相應的剩餘單元是否有用。因此,每個剩餘單元末尾的BN層是一個廣義的版本,包括[24],以便能夠決定每個剩餘單元是否有幫助。因此,獲得的自由度涉及γ和β BN層可以改善網絡體系結構的能力。表3中的結果支持這樣的結論,即在每個構建塊的末尾添加BN層 (如圖6中的類型(c)和 (d) ) 可以提高性能。注意,前面提到的刪除第一個ReLU的網絡也得到了改進,在最後一個卷積層之後添加了BN層。此外,表3中的結果表明,無論是金字塔網絡還是一種新的構建塊,都顯著提高了性能。

4. Experimental Results

​ 我們使用具有代表性的基準數據集 CIFAR-10和 CIFAR100[12]來評估和比較我們的算法和現有算法[7,8,18,24,34]的性能。 Cifar-10和 CIFAR-100都包含32個32像素的彩色圖像,由50,000個訓練圖像和10,000個測試圖像組成。 但是對於 CIFAR-10,它包括10個類,而 CIFAR-100包括100個類。 我們的實驗採用了標準的數據增量、水平翻轉和4像素的平移,遵循了通常的做法[18]。 金字塔網的結果是基於所提出的殘留單位: 在最後的卷積層之後放置一個 BN 層,如圖6(d)所示去除第一個 ReLU。 我們的代碼是基於 Torch 開源深度學習框架[1]構建的。

4.1 Training Settings

​ 我們的金字塔網是通過使用 CIFAR-10和 CIFAR-100數據集,利用 Nesterov 動量的隨機梯度下降反向傳播[15]訓練的。 Cifar-10的初始學習速率設置爲0.1,CIFAR-100的初始學習速率設置爲0.5,在150和225個時刻衰減了0.1倍。 過濾器參數由“ msra”[6]初始化。 我們使用0.0001的重量衰減,0的阻尼,momentum:0.9和batch size :128

4.2 Performance Evaluation

​ 在我們的工作中,我們主要使用top-1錯誤率來評估我們的網絡架構。 使用基本和金字塔瓶頸殘差單元的附加金字塔網絡。表4提供了我們的錯誤率和最先進的模型。 實驗結果表明,我們的網絡具有較好的泛化能力,在加法和乘法金字塔7方面進行了比較。 當參數數量較少時,加法和乘法的金字塔網表現出相似的性能,因爲這兩種網絡結構沒有明顯的結構差異。 隨着參數數量的增加,它們開始在特徵映射維度配置方面顯示更明顯的差異。 由於特徵映射維數在加法金字塔網的情況下線性增加,與圖2所示的乘法金字塔網相比,輸入端層的特徵映射維數往往更大,輸出端層的特徵映射維數往往更小。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-4aLURZlO-1586252349957)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407170700595.png)]

​ 先前的工作[7,25]通常爲下采樣模塊設置特徵映射維數的乘性縮放,通過增加輸出層的特徵映射維數,使分類器具有更大的自由度。 然而,對於我們的金字塔網絡,圖7中的結果意味着增加輸入端層的模型容量將導致比使用傳統的特徵映射維度乘法縮放方法更好的性能改進。

​ 我們還注意到,雖然使用正則化方法,如dropout[28]或隨機深度[10]可以進一步提高我們的模型的性能,我們沒有涉及這些方法,以確保與其他模型的公平比較。

4.3 ImageNet

​ 1,000級別的 ImageNet 數據集[22]用於 ILSVRC 包含超過100萬個訓練圖像和50,000個驗證圖像。 爲了進一步提高性能,我們使用帶有金字塔瓶頸剩餘單元的附加金字塔網,刪除第一個 ReLU 並在最後一層增加一個 BN 層,如第3.3節所述,如圖6(d)所示。
​ 我們對模型進行了120個時期的訓練,批量大小爲128,初始學習速率設置爲0.05,除以60、90和105個時期的10。 我們使用與 CIFAR 數據集相同的權重衰減、動量和初始化設置。 我們訓練我們的模型使用一個標準的數據增強與規模抖動和寬高比建議在 Szegedy 等人[31]。 表5顯示了我們的金字塔網在 ImageNet 數據集中與現有模型的比較結果。 實驗結果表明,我們使用α =300金字塔網具有20.5% 的 top-1錯誤率,比 pre-activation ResNet-200 [8]具有相似的參數數目,但輸出特徵維數比我們的模型高1.2% 。 我們還注意到,適當的正則化方法的增加可以進一步提高性能。
​ 爲了與 Inception-ResNet [30]進行比較,後者使用的是299x299個尺寸的試驗作物,我們在320x320個作物上測試我們的模型,出於與 He 等人的工作相同的原因[8]。 使用α = 300的金字塔網顯示了19.6% 的 top-1錯誤率,這超過了 pre-activation ResNet [8]和 inception-ResNet-v2[30]模型。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-QvY4Lq5s-1586252349958)(D:%5CUseTools%5CTypora%5Cimages%5Cimage-20200407171128236.png)]

5. Conclusion

​ 本文所描述的新型深度網絡結構的主要思想是逐步增加特徵圖的維數,從而與ResNets的概念一起構建所謂的金字塔網。我們還開發了一種新的殘差單元,其中包括一個新的使用零填補shortcut連接方式building block 殘差單元。這種設計大大提高了泛化能力。在使用CIFAR-10、CIFAR-100和ImageNet1k數據集的測試中,我們的金字塔網勝過所有以前的先進深度網絡架構。此外,本文的見解可以被任何網絡體系結構所利用,從而提高它們的能力以獲得更好的性能。在未來的工作中,我們將以更有原則的方式開發優化參數的方法,例如使用適當的成本函數來優化feature map維數,從而深入瞭解殘差網絡的性質。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章