ResNet論文翻譯-Deep Residual Learning for Image Recognition

聲明:文章僅作知識整理、分享,如有侵權請聯繫作者刪除博文,謝謝!

經典分類網絡系列文章鏈接:

1、LeNet結構解析

2、AlexNet論文翻譯AlexNet論文總結與實現

3、VGG論文翻譯VGGNet總結及啓發

Deep Residual Learning for Image Recognition

摘要

越深層次的神經網絡越難以訓練。我們提供了一個殘差學習框架,以減輕對網絡的訓練,這些網絡的深度比以前的要大得多。我們明確地將這些層重新規劃爲通過參考輸入層x,學習殘差函數,來代替沒有參考的學習函數。

我們提供了綜合的經驗證據,表明殘差網絡更容易優化,並且可以從顯著增加的深度中獲得準確性。在ImageNet數據集上,我們對剩餘的網進行評估,其深度爲152層,比VGG網41層更深,但仍可以保證有較低的複雜度。結合這些殘差網絡在ImageNet測試集上獲得了3.57%的誤差,這一結果在ILSVRC2015分類任務中獲得了第一名。我們還對cifar 10進行了100和1000層的分析。

對於許多視覺識別任務來說,特徵表達的深度是至關重要的。僅僅由於我們的極深的表示,我們在COCO目標檢測數據集上獲得了28%的相對改進。深度殘差網絡是我們參加LSVRC&COCO 2015比賽的基礎,我們還贏得了ImageNet檢測、ImageNet本地化、檢測和分割等任務的第1個位置。

1、引言

深度卷積神經網絡已經爲圖像分類帶來了一系列突破。網絡深度是至關重要的。

在深度重要性的驅使下,一個問題出現了:學習更好的網絡是否像堆更多的層一樣簡單?回答這個問題的一個障礙是衆所周知的“梯度消失/爆炸”,這阻礙了從一開始就收斂。然而,這個問題主要通過規範化的初始化中間的標準化層(Batch Normalization)來解決,這使得具有數十層的網絡通過隨機梯度下降(SGD)方法可以開始收斂

當更深的網絡能夠開始收斂時,暴露了一個退化問題:隨着網絡深度的增加,準確率達到飽和(這可能並不奇怪)然後迅速下降。意外的是,這種下降不是由過擬合引起的,並且在適當的深度模型上添加更多的層會導致更高的訓練誤差,正如[10, 41]中報告的那樣,並且由我們的實驗完全證實。圖1顯示了一個典型的例子。

圖1 20層和56層的“簡單”網絡在CIFAR-10上的訓練誤差(左)和測試誤差(右)。更深的網絡有更高的訓練誤差和測試誤差。ImageNet上的類似現象如圖4所示。

退化(訓練準確率)表明不是所有的系統都很容易優化。讓我們考慮一個較淺的架構及其更深層次的對象,爲其添加更多的層。存在通過構建得到更深層模型的解決方案:添加的層是恆等映射,其他層是從學習到的較淺模型的拷貝。 這種構造解決方案的存在表明,較深的模型不應該產生比其對應的較淺模型更高的訓練誤差。但是實驗表明,我們目前現有的解決方案無法找到與構建的解決方案相比相對不錯或更好的解決方案(或在合理的時間內無法實現)。

在本文中,我們通過引入深度殘差學習框架解決了退化問題。我們明確地讓這些層擬合殘差映射,而不是希望每幾個堆疊的層直接擬合期望的基礎映射。形式上,將期望的基礎映射表示爲H(x),我們將堆疊的非線性層擬合另一個映射F(x):=H(x)−x。原始的映射重寫爲F(x)+x。我們假設殘差映射比原始的、未參考的映射更容易優化。在極端情況下,如果一個恆等映射是最優的,那麼將殘差置爲零比通過一堆非線性層來擬合恆等映射更容易。

公式F(x)+x可以通過帶有“快捷連接”的前向神經網絡(圖2)來實現。快捷連接[2, 33, 48]是那些跳過一層或更多層的連接。在我們的案例中,快捷連接簡單地執行恆等映射,並將其輸出添加到堆疊層的輸出(圖2)。恆等快捷連接既不增加額外的參數也不增加計算複雜度。整個網絡仍然可以由帶有反向傳播的SGD進行端到端的訓練,並且可以使用公共庫(例如,Caffe [19])輕鬆實現,而無需修改求解器。

圖2. 殘差學習:構建塊

我們在ImageNet[35]上進行了綜合實驗來顯示退化問題並評估我們的方法。我們發現:

1)我們極深的殘差網絡易於優化,但當深度增加時,對應的“簡單”網絡(簡單堆疊層)表現出更高的訓練誤差;

2)我們的深度殘差網絡可以從大大增加的深度中輕鬆獲得準確性收益,生成的結果實質上比以前的網絡更好。

2、相關工作

殘差表示。在圖像識別中,VLAD[18]是一種通過關於字典的殘差向量進行編碼的表示形式,Fisher矢量[30]可以表示爲VLAD的概率版本[18]。它們都是圖像檢索和圖像分類[4,47]中強大的淺層表示。對於矢量量化,編碼殘差矢量[17]被證明比編碼原始矢量更有效。

在低級視覺和計算機圖形學中,爲了求解偏微分方程(PDE),廣泛使用的Multigrid方法[3]將系統重構爲在多個尺度上的子問題,其中每個子問題負責較粗尺度和較細尺度的殘差解。Multigrid的替代方法是層次化基礎預處理[44,45],它依賴於表示兩個尺度之間殘差向量的變量。已經被證明[3,44,45]這些求解器比不知道解的殘差性質的標準求解器收斂得更快。這些方法表明,良好的重構或預處理可以簡化優化。

快捷連接。導致快捷連接[2,33,48]的實踐和理論已經被研究了很長時間。訓練多層感知機(MLP)的早期實踐是添加一個線性層來連接網絡的輸入和輸出[33,48]。在[43,24]中,一些中間層直接連接到輔助分類器,用於解決梯度消失/爆炸。論文[38,37,31,46]提出了通過快捷連接實現層間響應,梯度和傳播誤差的方法。在[43]中,一個“inception”層由一個快捷分支和一些更深的分支組成。

和我們同時進行的工作,“highway networks” [41, 42]提出了門功能[15]的快捷連接。這些門是數據相關且有參數的,與我們不具有參數的恆等快捷連接相反。當門控快捷連接“關閉”(接近零)時,高速網絡中的層表示非殘差函數。相反,我們的公式總是學習殘差函數;我們的恆等快捷連接永遠不會關閉,所有的信息總是通過,還有額外的殘差函數要學習。此外,高速網絡還沒有證實極度增加的深度(例如,超過100個層)帶來的準確性收益。

3. 深度殘差學習

3.1. 殘差學習

我們考慮H(x)作爲幾個堆疊層(不必是整個網絡)要擬合的基礎映射,x表示這些層中第一層的輸入。假設多個非線性層可以漸近地近似複雜函數,它等價於假設它們可以漸近地近似殘差函數,即H(x)−x(假設輸入輸出是相同維度)。因此,我們明確讓這些層近似參數函數 F(x):=H(x)−x,而不是期望堆疊層近似H(x)。因此原始函數變爲F(x)+x。儘管兩種形式應該都能漸近地近似要求的函數(如假設),但學習的難易程度可能是不同的。

關於退化問題的反直覺現象激發了這種重構(圖1左)。正如我們在引言中討論的那樣,如果添加的層可以被構建爲恆等映射,更深模型的訓練誤差應該不大於它對應的更淺版本。退化問題表明求解器通過多個非線性層來近似恆等映射可能有困難。通過殘差學習的重構,如果恆等映射是最優的,求解器可能簡單地將多個非線性連接的權重推向零來接近恆等映射。

在實際情況下,恆等映射不太可能是最優的,但是我們的重構可能有助於對問題進行預處理。如果最優函數比零映射更接近於恆等映射,則求解器應該更容易找到關於恆等映射的抖動,而不是將該函數作爲新函數來學習。我們通過實驗(圖7)顯示學習的殘差函數通常有更小的響應,表明恆等映射提供了合理的預處理。

圖7。層響應在CIFAR-10上的標準差(std)。這些響應是每個3×3層的輸出,在BN之後非線性之前。上面:以原始順序顯示層。下面:響應按降序排列。

3.2. 快捷恆等映射

我們每隔幾個堆疊層採用殘差學習。構建塊如圖2所示。在本文中我們考慮構建塊正式定義爲:

y=F(x,Wi)+x (1)

x和y是考慮的層的輸入和輸出向量。函數F(x,Wi)表示要學習的殘差映射。圖2中的例子有兩層,F=W2σ(W1x)中σ表示ReLU[29],爲了簡化寫法忽略偏置項。F+x操作通過快捷連接和各個元素相加來執行。在相加之後我們採納了第二種非線性(即σ(y),看圖2)。

方程(1)中的快捷連接既沒有引入外部參數又沒有增加計算複雜度。這不僅在實踐中有吸引力,而且在簡單網絡和殘差網絡的比較中也很重要。我們可以公平地比較同時具有相同數量的參數,相同深度,寬度和計算成本的簡單/殘差網絡(除了不可忽略的元素加法之外)。

方程(1)中x和F的維度必須是相等的。如果不是這種情況(例如,當更改輸入/輸出通道時),我們可以通過快捷連接執行線性投影Ws來匹配維度:

y=F(x,Wi)+Wsx. (2)

我們也可以使用方程(1)中的方陣Ws。但是我們將通過實驗表明,恆等映射足以解決退化問題,並且是合算的,因此Ws僅在匹配維度時使用。

殘差函數F的形式是可變的。本文中的實驗包括有兩層或三層(圖5)的函數F,同時可能有更多的層。但如果F只有一層,方程(1)類似於線性層:y=W1x+x,我們沒有看到優勢。

圖5。ImageNet的深度殘差函數F。左:ResNet-34的構建塊(在56×56的特徵圖上),如圖3。右:ResNet-50/101/152的“bottleneck”構建塊。

我們還注意到,爲了簡單起見,儘管上述符號是關於全連接層的,但它們同樣適用於卷積層。函數F(x,Wi)可以表示多個卷積層。元素加法在兩個特徵圖上逐通道進行。

3.3. 網絡架構

我們測試了各種簡單/殘差網絡,並觀察到了一致的現象。爲了提供討論的實例,我們描述了ImageNet的兩個模型如下。

簡單網絡。 我們簡單網絡的基準(圖3,中間)主要受到VGG網絡[40](圖3,左圖)的哲學啓發。卷積層主要有3×3的濾波器,並遵循兩個簡單的設計規則:

1)對於相同的輸出特徵圖尺寸,層具有相同數量的濾波器;

2)如果特徵圖尺寸減半,則濾波器數量加倍,以便保持每層的時間複雜度。

我們通過步長爲2的卷積層直接執行下采樣。網絡以全局平均池化層和具有softmax的1000維全連接層結束。圖3(中間)的加權層總數爲Resnet-34。

圖3。ImageNet的網絡架構例子。左:作爲參考的VGG-19模型40。中:具有34個參數層的簡單網絡(36億FLOPs)。右:具有34個參數層的殘差網絡(36億FLOPs)。帶點的快捷連接增加了維度。表1顯示了更多細節和其它變種。

表1。ImageNet架構。構建塊顯示在括號中(也可看圖5),以及構建塊的堆疊數量。下采樣通過步長爲2的conv3_1, conv4_1和conv5_1執行。

值得注意的是我們的模型與VGG網絡(圖3左)相比,有更少的濾波器和更低的複雜度。我們的34層基準有36億FLOP(乘加),僅是VGG-19(196億FLOP)的18%。

殘差網絡。 基於上述的簡單網絡,我們插入快捷連接(圖3,右),將網絡轉換爲其對應的殘差版本。當輸入和輸出具有相同的維度時(圖3中的實線快捷連接)時,可以直接使用恆等快捷連接(方程(1))。當維度增加(圖3中的虛線快捷連接)時,我們考慮兩個選項:(A)快捷連接仍然執行恆等映射,額外填充零輸入以增加維度。此選項不會引入額外的參數;(B)方程(2)中的投影快捷連接用於匹配維度(由1×1卷積完成)。對於這兩個選項,當快捷連接跨越兩種尺寸的特徵圖時,它們執行時步長爲2。

3.4. 實現

ImageNet中我們的實現遵循[21,40]的實踐。調整圖像大小,其較短的邊在[256,480]之間進行隨機採樣,用於尺度增強[40]。224×224裁剪是從圖像或其水平翻轉中隨機採樣,並逐像素減去均值[21]。使用了[21]中的標準顏色增強。在每個卷積之後和激活之前,我們採用批量歸一化(BN)[16]。我們按照[12]的方法初始化權重,從零開始訓練所有的簡單/殘差網絡。我們使用批大小爲256的SGD方法。學習速度從0.1開始,當誤差穩定時學習率除以10,並且模型訓練高達60×104次迭代。我們使用的權重衰減爲0.0001,動量爲0.9。根據[16]的實踐,我們不使用丟棄[13]。

在測試階段,爲了比較學習我們採用標準的10-crop測試[21]。對於最好的結果,我們採用如[40, 12]中的全卷積形式,並在多尺度上對分數進行平均(圖像歸一化,短邊位於{224, 256, 384, 480, 640}中)。

4. 實驗

4.1. ImageNet分類

我們在ImageNet 2012分類數據集[35]對我們的方法進行了評估,該數據集由1000個類別組成。這些模型在128萬張訓練圖像上進行訓練,並在5萬張驗證圖像上進行評估。我們也獲得了測試服務器報告的在10萬張測試圖像上的最終結果。我們評估了top-1和top-5錯誤率。

簡單網絡。我們首先評估18層和34層的簡單網絡。34層簡單網絡在圖3(中間)。18層簡單網絡是一種類似的形式。有關詳細的體系結構,請參見表1。

表2中的結果表明,較深的34層簡單網絡比較淺的18層簡單網絡有更高的驗證誤差。爲了揭示原因,在圖4(左圖)中,我們比較訓練過程中的訓練/驗證誤差。我們觀察到退化問題——雖然18層簡單網絡的解空間是34層簡單網絡解空間的子空間,但34層簡單網絡在整個訓練過程中具有較高的訓練誤差。

表2。ImageNet驗證集上的Top-1錯誤率(%,10個裁剪圖像測試)。相比於對應的簡單網絡,ResNet沒有額外的參數。圖4顯示了訓練過程。

圖4。在ImageNet上訓練。細曲線表示訓練誤差,粗曲線表示中心裁剪圖像的驗證誤差。左:18層和34層的簡單網絡。右:18層和34層的ResNet。在本圖中,殘差網絡與對應的簡單網絡相比沒有額外的參數。

我們認爲這種優化難度不可能是由於梯度消失引起的。這些簡單網絡使用BN[16]訓練,這保證了前向傳播信號有非零方差。我們還驗證了反向傳播的梯度,結果顯示其符合BN的正常標準。因此既不是前向信號消失也不是反向信號消失。實際上,34層簡單網絡仍能取得有競爭力的準確率(表3),這表明在某種程度上來說求解器仍工作。我們推測深度簡單網絡可能有指數級低收斂特性,這影響了訓練誤差的降低。這種優化困難的原因將來會研究。

未增加Resnet結構的34比18性能差,作者通過驗證BN反向傳播信號,證明這種優化難度不是梯度消失引起的。

表3。ImageNet驗證集錯誤率(%,10個裁剪圖像測試)。VGG16是基於我們的測試結果的。ResNet-50/101/152的選擇B僅使用投影增加維度。

殘差網絡。接下來我們評估18層和34層殘差網絡(ResNets)。基準架構與上述的簡單網絡相同,如圖3(右)所示,預計每對3×3濾波器都會添加快捷連接。在第一次比較(表2和圖4右側)中,我們對所有快捷連接都使用恆等映射和零填充以增加維度(選項A)。所以與對應的簡單網絡相比,它們沒有額外的參數-以參數量爲統一值。

我們從表2和圖4中可以看到三個主要的觀察結果:

1)殘留學習的情況變了——34層ResNet比18層ResNet更好(2.8%)。更重要的是,34層ResNet顯示出較低的訓練誤差,並且可以泛化到驗證數據。這表明在這種情況下,退化問題得到了很好的解決,我們從增加的深度中設法獲得了準確性收益。

2)與對應的簡單網絡相比,由於成功的減少了訓練誤差,34層ResNet降低了3.5%的top-1錯誤率。這種比較證實了在極深系統中殘差學習的有效性。

3)18層的簡單/殘差網絡同樣地準確(表2),但18層ResNet收斂更快(圖4右和左)。當網絡“不過度深”時(18層),目前的SGD求解器仍能在簡單網絡中找到好的解。在這種情況下,ResNet通過在早期提供更快的收斂簡便了優化。

恆等和投影快捷連接。我們已經表明沒有參數,恆等快捷連接有助於訓練。接下來我們調查投影快捷連接(方程2)-y=F(x,Wi)+Wsx.。在表3中我們比較了三個選項:

(A) 零填充快捷連接用來增加維度,所有的快捷連接是沒有參數的(與表2和圖4右相同);

(B) 投影快捷連接用來增加維度,其它的快捷連接是恆等的;

(C) 所有的快捷連接都是投影。

表3顯示,所有三個選項都比對應的簡單網絡好很多。選項B比A略好。我們認爲這是因爲A中的零填充確實沒有殘差學習。選項C比B稍好,我們把這歸因於許多(十三)投影快捷連接引入了額外參數。但A/B/C之間的細微差異表明,投影快捷連接對於解決退化問題不是至關重要的。因爲我們在本文的剩餘部分不再使用選項C,以減少內存/時間複雜性和模型大小。恆等快捷連接對於不增加下面介紹的瓶頸結構的複雜性尤爲重要。

更深的瓶頸結構。接下來我們描述ImageNet中我們使用的更深的網絡網絡。由於關注我們能承受的訓練時間,我們將構建塊修改爲瓶頸設計。對於每個殘差函數F,我們使用3層堆疊而不是2層(圖5)。三層是1×1,3×3和1×1卷積,其中1×1層負責減小然後增加(恢復)維度,使3×3層成爲具有較小輸入/輸出維度的瓶頸。圖5展示了一個示例,兩個設計具有相似的時間複雜度。

無參數恆等快捷連接對於瓶頸架構尤爲重要。如果圖5(右)中的恆等快捷連接被投影替換,則可以顯示出時間複雜度和模型大小加倍,因爲快捷連接是連接到兩個高維端。因此,恆等快捷連接可以爲瓶頸設計得到更有效的模型。

50層ResNet:我們用3層瓶頸塊替換34層網絡中的每一個2層塊,得到了一個50層ResNet(表1)。我們使用選項B來增加維度。該模型有38億FLOP。

101層和152層ResNet:我們通過使用更多的3層瓶頸塊來構建101層和152層ResNets(表1)。值得注意的是,儘管深度顯著增加,但152層ResNet(113億FLOP)仍然比VGG-16/19網絡(153/196億FLOP)具有更低的複雜度。

50/101/152層ResNet比34層ResNet的準確性要高得多(表3和4)。我們沒有觀察到退化問題,因此可以從顯著增加的深度中獲得顯著的準確性收益。所有評估指標都能證明深度的收益(表3和表4)。

與最先進的方法比較。在表4中,我們與以前最好的單一模型結果進行比較。我們基準的34層ResNet已經取得了非常有競爭力的準確性。我們的152層ResNet具有單模型4.49%的top-5錯誤率。這種單一模型的結果勝過以前的所有綜合結果(表5)。我們結合了六種不同深度的模型,形成一個集合(在提交時僅有兩個152層)。這在測試集上得到了3.5%的top-5錯誤率(表5)。這次提交在2015年ILSVRC中榮獲了第一名。

表4。單一模型在ImageNet驗證集上的錯誤率(%)(除了†是測試集上報告的錯誤率)。

表5。模型綜合的錯誤率(%)。top-5錯誤率是ImageNet測試集上的並由測試服務器報告的。

4.2. CIFAR-10和分析

我們對CIFAR-10數據集[20]進行了更多的研究,其中包括10個類別中的5萬張訓練圖像和1萬張測試圖像。我們介紹了在訓練集上進行訓練和在測試集上進行評估的實驗。我們的焦點在於極深網絡的行爲,但不是推動最先進的結果,所以我們有意使用如下的簡單架構。

簡單/殘差架構遵循圖3(中/右)的形式。網絡輸入是32×32的圖像,每個像素減去均值。第一層是3×3卷積。然後我們在大小爲{32,16,8}的特徵圖上分別使用了帶有3×3卷積的6n個堆疊層,每個特徵圖大小使用2n層。濾波器數量分別爲{16,32,64}。下采樣由步長爲2的卷積進行。網絡以全局平均池化,一個10維全連接層和softmax作爲結束。共有6n+2個堆疊的加權層。下表總結了這個架構:

當使用快捷連接時,它們連接到成對的3×3卷積層上(共3n個快捷連接)。在這個數據集上,我們在所有案例中都使用恆等快捷連接(即選項A),因此我們的殘差模型與對應的簡單模型具有完全相同的深度,寬度和參數數量。

我們使用的權重衰減爲0.0001和動量爲0.9,並採用[12]和BN[16]中的權重初始化,但沒有使用丟棄。這些模型在兩個GPU上進行訓練,批處理大小爲128。我們開始使用的學習率爲0.1,在32k次和48k次迭代後學習率除以10,並在64k次迭代後終止訓練,這是由45k/5k的訓練/驗證集分割決定的。我們按照[24]中的簡單數據增強進行訓練:每邊填充4個像素,並從填充圖像或其水平翻轉圖像中隨機採樣32×32的裁剪圖像。對於測試,我們只評估原始32×32圖像的單一視圖。

我們比較了n=3,5,7,9,得到了20層,32層,44層和56層的網絡。圖6(左)顯示了簡單網絡的行爲。深度簡單網絡經歷了深度增加,隨着深度增加表現出了更高的訓練誤差。這種現象類似於ImageNet中(圖4,左)和MNIST中(請看[41])的現象,表明這種優化困難是一個基本的問題。

圖6。在CIFAR-10上訓練。虛線表示訓練誤差,粗線表示測試誤差。左:簡單網絡。簡單的110層網絡錯誤率超過60%沒有展示。中間:ResNet。右:110層ResNet和1202層ResNet。

圖6(中)顯示了ResNet的行爲。與ImageNet的情況類似(圖4,右),我們的ResNet設法克服優化困難並隨着深度的增加展示了準確性收益。

我們進一步探索了n=18得到了110層的ResNet。在這種情況下,我們發現0.1的初始學習率對於收斂來說太大了。因此我們使用0.01的學習率開始訓練,直到訓練誤差低於80%(大約400次迭代),然後學習率變回到0.1並繼續訓練。學習過程的剩餘部分與前面做的一樣。這個110層網絡收斂的很好(圖6,中)。它與其它的深且窄的網絡例如FitNet[34]和Highway41相比有更少的參數,但結果仍在目前最好的結果之間(6.43%,表6)。

表6。在CIFAR-10測試集上的分類誤差。所有的方法都使用了數據增強。對於ResNet-110,像論文[42]中那樣,我們運行了5次並展示了“最好的(mean±std)”。

層響應分析。圖7顯示了層響應的標準偏差(std)。這些響應每個3×3層的輸出,在BN之後和其他非線性(ReLU/加法)之前。對於ResNets,該分析揭示了殘差函數的響應強度。圖7顯示ResNet的響應比其對應的簡單網絡的響應更小。這些結果支持了我們的基本動機(第3.1節),殘差函數通常具有比非殘差函數更接近零。我們還注意到,更深的ResNet具有較小的響應幅度,如圖7中ResNet-20,56和110之間的比較所證明的。當層數更多時,單層ResNet趨向於更少地修改信號。

圖 7

探索超過1000層。我們探索超過1000層的過深的模型。我們設置n=200,得到了1202層的網絡,其訓練如上所述。我們的方法顯示沒有優化困難,這個103層網絡能夠實現訓練誤差<0.1%(圖6,右圖)。其測試誤差仍然很好(7.93%,表6)。

但是,這種極深的模型仍然存在着開放的問題。這個1202層網絡的測試結果比我們的110層網絡的測試結果更差,雖然兩者都具有類似的訓練誤差。我們認爲這是因爲過擬合。對於這種小型數據集,1202層網絡可能是不必要的大(19.4M)。在這個數據集應用強大的正則化,如maxout[9]或者dropout[13]來獲得最佳結果([9,25,24,34])。在本文中,我們不使用maxout/dropout,只是簡單地通過設計深且窄的架構簡單地進行正則化,而不會分散集中在優化難點上的注意力。但結合更強的正規化可能會改善結果,我們將來會研究。

4.3. 在PASCAL和MS COCO上的目標檢測

我們的方法對其他識別任務有很好的泛化性能。表7和表8顯示了PASCAL VOC 2007和2012[5]以及COCO[26]的目標檢測基準結果。我們採用更快的R-CNN[32]作爲檢測方法。在這裏,我們感興趣的是用ResNet-101替換VGG-16[40]。使用這兩種模式的檢測實現(見附錄)是一樣的,所以收益只能歸因於更好的網絡。最顯著的是,在有挑戰性的COCO數據集中,COCO的標準度量指標(mAP@[.5,.95])增長了6.0%,相對改善了28%。這種收益完全是由於學習表示。

表7。在PASCAL VOC 2007/2012測試集上使用基準Faster R-CNN的目標檢測mAP(%)。更好的結果請看附錄。

表8。在COCO驗證集上使用基準Faster R-CNN的目標檢測mAP(%)。更好的結果請看附錄。

基於深度殘差網絡,我們在ILSVRC & COCO 2015競賽的幾個任務中獲得了第一名,分別是:ImageNet檢測,ImageNet定位,COCO檢測,COCO分割。跟多細節請看附錄。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章