VGG: VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

Abstract:

 

我們的工作是研究更加深的卷及網絡對於大規模機器學習的影響. 我們的主要貢獻是使用3X3的非常小的卷積層來增加網絡的深度改善其性能, 最終的深度在16~19層. 這些發現是基於14年的比賽上的提交, 隊伍在目標定位和圖像分類方面分別獲得了第一和第二.我們同時展示了我們的網絡對於別的數據集也有同樣的適用性, 他們獲得了世界頂尖的水平. 我們已將我們的兩種性能最好的ConvNet模型公諸於衆,以便於進一步研究在計算機視覺中使用深度視覺表示的問題。

 

 

1 INTRODUCTION

卷及網絡最近在大規模數據集和視頻識別上的成功源於更大量的數據集, 比如ImageNet, 更好的計算能力, 比如GPU和大規模分佈式系統. 特別的, ILSVRC競賽也在促進深度學習發展扮演者一個重要的角色, 作爲幾代大規模圖像分類系統的實驗平臺,從高維度表面特徵卷積到深度卷積.

隨着卷積網絡在視覺方面的有利, 有越來越多的對於網絡結構改進的嘗試以獲得更好的精準度. 比如, 在ILSVRC-2013上最好的提交方案是利用更小的接受窗口和更小的stride在第一層網絡層. 另一項改進涉及到在整個圖像和多尺度上密集地對網絡進行培訓和測試。在本文中我們強調另外一個重要的卷積網絡改進嘗試: 增加網絡的深度. 爲了這個目的, 我們固定一些結構的參數, 通過增加更多的卷積層持續的增加網絡的深度. 這是合理的源於我們使用了3X3的卷積濾波器在所有的層.

總之, 我們提到的更精準的cnn結構, 不僅獲得了state of the art(在ILSVRC的分類和定位任務中), 同時我們也應用在別的數據設別中. 甚至在部分單通道獲得了卓越的效果. 我們發佈了兩個最好的模型以助於更深遠的研究.

剩下的論文如下: sect2描述了vgg的配置, sect3是圖片分類的訓練和評估的細節. sect4是在ILSVRC中對比配置. sect5是總結. 爲了完善性, 我麼也在Appendix A描述和評估了ILSVRC-2014目標定位系統. 在Appendix B討論了歸納了深度特徵對於數據集. 最終在Appendix C中包含主要的論文修改list

 

2 CONVNET CONFIGURATIONS

2.1 Architecture

在訓練期間, VGG的輸入時224X224RGB圖片. 僅有的預處理是零均值化, 在訓練集上運算對於每一個像素. 圖片通過每一個卷積層. 我們使用非常小的3X3的濾波器. 其中1X1的濾波器也在我們的配置中. 可以看做一個線性輸入渠道. stride固定爲1, 卷積層的空間填充是爲了在卷積之後保持空間的分辨率. 比如, 對於3X3的卷積填充是1像素(上下左右). 有5個max-pooling層, 跟在一些卷積層之後(不是每個後面都有). max-pooling 是在2X2的窗口, stride=2.

在所有的卷積層之後是三層全連接層(FC): 第一個是4096個通道, 第三個是1000分類, 最終層是softmax層. 全連接在所有的網絡配置中都是相同的.

所有的隱藏層是配置了ReLU非線性激活器. 但是沒有使用LRN標準化: 我們在sect4展示這樣的標準化對於競賽的數據集沒有任何的改善,但卻增加了內存的消耗和計算時間, 如果可能的話, the parameters for the LRN layer are those of (Krizhevsky et al., 2012).

 

2.2 CONFIGURATIONS

以下是A-E六個網絡結構, 表2是參數的數量.

 

 

 

2.3 DISCUSSION

我們的網絡配置和之前競賽中的網絡是非常不同的. 相比於非常大的濾波器(7X7stride2), 我們使用了3X3濾波器stride=1, 容易看到, 堆疊兩個3X3conv就是和一個5X5的conv等效, 堆疊三個就是和一個7X7的等效. 所以我們通過使用3X3到底獲得了什麼呢? 比如, 爲什麼是三個堆疊的3X3的, 而不是隻一個7X7的. 首先, 我們包含三個非線性調整層而不是一個. 這使得決策函數更具有判斷力. 第二點, 我們減少了參數的數量: 假設我們輸入和輸出都有C個通道, 那麼對於堆疊的參數是3^3*C^2, 但是對於一個7X7的則是由49C^2的參數. 這可以看做是7X7的一個規則,強迫他們分解成3X3的濾波器.

包含1X1的卷積層是一個增加決策函數的非線性而又不影響conv層的接受域的方式. 即在我們的case中1X1卷積本質上是一個線性設計在相同的空間維度上(輸入和輸出的通道是相同的), 而非線性則是被修正函數引入的。需要注意的是1X1卷積層又被用於"network in network"中(2014的一個網絡).

小的卷積是在2011年就被使用了, 但是他們的網絡是比我們淺的, 而且他們也沒有在大規模數據集上評估. goodfellow'被用於11層的convNets對於街道數量的識別, 展示了增加深度趨向更好的性能, GooLeNet在2014年是top-performing, 是和我們的網絡獨立發展的. 但是相似的都是基於深度的卷積層和小的卷積層. 然而他們的網絡結構但是非常複雜的比我們, 而且我們特徵映射的空間分辨率更猛烈地減少在第一層卷積,以減少計算量。正如Sect4.5展示的, 就單網絡分類的準確性而言, 我們的模型優於Szegedy等人的模型(2014)。

 

3 CLASSIFICATION FRAMEWORK

這個部分描寫VGG的訓練和評估細節

3.1 TRAINING

ConvNet的訓練過程和AlexNet是相似的. 也就是說, 通過訓練優化logistic迴歸使用mini-batch梯度下降, batch size=256, momentum=0.9, 訓練的權重採用正則化(L2懲罰係數=5*10^-4)和對於前兩個FC層實行dropout規則(dropout ratio = 0.5). 學習率初始-0.01, 當驗證集的精度停止提高時,學習率下降了10倍. 總的來說學習率下降了3次, 學習在370K次迭代後停止(74epochs). 我們推測儘管參數很多而且相比於AlexNet我們的網絡也很深, 網絡需要更小的epochs去收斂源於(1)隱式正則化由更大的深度和較小的Conv所決定的;(2)某些層的預初始化。

網絡權重的初始化是重要的, 糟糕的初始化可能拖延學習是由於深層次的梯度不穩定性, 爲了避免這個問題, 我們開始訓練net-A, 是可以隨機初始化訓練的. 當訓練更深層次的結構時, 我們初始化前四個和後三個全連接層於配置A的參數(中間層隨機初始化). 我們不改變學習率對於之前初始化的層次, 允許他們在學習期間改變. 對於隨機初始化, 我們從均值=0,方差=0.01的正太分佈中取樣. 偏差初始化爲0.值得注意的是在論文提交之後, 我們發現權重可以通過Glorot&Bengio生成隨機初始化而不再訓練.

對於獲取固定大小的224X圖片, 他們從重新定義尺寸的訓練數據中隨機裁剪. 爲了更加的擴張數據集, 可以水平反轉和RGB顏色移動(AlexNet), 訓練圖片的重新規模是解釋如下:

Training image size:

讓S代表來自cnn輸入圖片重新裁剪之後的最小的邊長, 也可以稱S爲訓練尺度, 裁剪大小固定爲224X224, 原則上S可以有任意的不小224的值, 對於S=224, 裁剪將整個圖片捕獲, 完全擴展訓練圖像的最小邊. 對於S>=224, 裁剪對應於圖像的一小部分,包含一個物體或者一個物體部分。

我們考慮兩個方法對於設置訓練尺度S. 第一個是固定S. 也就是單一尺度的訓練. 在我們的實驗中, 我們評估模型訓練在兩個固定的維度中: S=256和S=384. 給與一個卷積配置, 我們首先訓練網絡用256. 加速s=384網絡的訓練. 他是初始化與訓練S=256的參數, 而且我們初始更小的學習率0.001.

第二個方法是設置S爲多尺度訓練, 其中每個圖像通過特定範圍[S min,S max](我們使用S min = 256和S max = 512)隨機採樣S來單獨地重新調整每個訓練圖像。由於圖像中的物體可以具有不同的尺寸,因此在訓練期間考慮這一點是有益的。  這也可以被視爲通過尺度抖動的訓練集增強,其中訓練單個模型以識別各種尺度上的對象。出於速度原因,我們通過使用相同配置微調單級模型的所有層來訓練多尺度模型,使用固定的S = 384進行預訓練.

3.2 Testing

測試時, 給與一個訓練過的cnn並且輸入一個圖片, 它是被分類如下方式: 首先, 它被等軸地歸一化爲一個預先定義好的image side, 記作Q(也叫測試尺度). Q不必相等於S. 然後,以類似於sermanet al.(sermanet al.,2014)的方式密集地應用於歸一化的測試圖像上。也就是說, 完全連接的層首先轉換爲卷積層(第一層FC層爲7×7 Conv)。層,最後兩個FC層爲1×1 conv。全連接卷積網絡用於整個圖片. 結果是類得分圖的通道數等於類別的數量,以及取決於輸入圖像大小的可變空間分辨率. 最後,爲了獲得圖像的類別分數的固定大小的向量,類得分圖在空間上平均(和池化). 我們也擴張測試集通過水平反轉.將原始圖像和翻轉圖像的soft-max類後驗進行平均,以獲得圖像的最終分數。

由於全卷積網絡是用於整個圖片, 所以在測試時不需要抽取多個裁剪. 這是不太有效的,因爲它需要對每一種裁剪進行網絡重新計算。同時, 使用一個裁剪的大集合, 就像Szegedy團隊做的那樣, 可以改善精準度, 因爲它使輸入圖像的採樣比完全卷積網更精細。此外,對於不同的卷積邊界條件,多重裁剪是對密集評估的補充:當把裁剪的集合輸入CNN時. 會捲入0填充的特徵值, 而在密集評估的情況下,同一裁剪的填充自然來自圖像的相鄰部分(由於卷積和空間池化),這大大增加了整個網絡的感受野,因此捕獲了更多的上下文。雖然我們認爲實際上多種裁剪的計算時間增加並不能證明準確性的潛在增益, 但是作爲參考, 我們也是通過每種尺度50個裁剪(5X5=25規則網格, 2次翻轉, 共50個)評估我們的網絡, 對於3個scales的150個裁剪, 與Szegedy團隊的4scales的144個裁剪相當.

3.3 implementation details

我們的實現是源於Caffe工具, 但是包含一些重要的修改, 以允許我們去執行訓練和評估在安裝多個GPU的系統上. 作爲訓練和評估在沒有裁剪的圖片在多個尺度. 多GPU訓練利用數據並行性, 通過將每批訓練圖像分成幾個GPU來實現批處理, 在每個GPU上並行處理. 在計算GPU批量梯度之後,對它們進行平均以獲得完整批次的梯度。梯度計算在GPU之間是同步的,因此結果與在單個GPU上訓練時的結果完全相同。梯度計算在GPU之間是同步的,因此結果與在單個GPU上訓練時的結果完全相同。

雖然最近提出了更加複雜的加速ConvNet培訓的方法(Krizhevsky,2014),它採用了網絡不同層次的模型和數據並行性,但我們發現,我們在概念上更加簡單的方案已經提供了3.75倍的關閉速度。 與使用單個GPU相比,這種架子式4-GPU系統。在配備有4個NVIDIA Titan Black GPU的系統上,根據架構的不同,訓練單網需要2-3周。

 

4 Classification experiments

數據集:

這個部分, 我們描述的CNN結構在ILSVRC-2012數據集上的分類結果. 數據集包含1000個類, 分割成三個集合: 訓練集(1.3M), 驗證集(50K), 測試集(100K,沒有分類標籤), 分類通過兩個方案評估: top-1和top-5錯誤率. top-1是multi-class分類錯誤率.top-5(即對一個圖片,如果概率前五中包含正確答案,即認爲正確)是ILSVRC中主要的評估標準, 並且計算爲圖像真是類別在前5個預測類別之外的圖像比例.

對於大多數實驗,我們使用驗證集作爲測試集。在測試集上也進行了一些實驗,並將其作爲ILSVRC-2014競賽(Russakovsky等,2014)“VGG”小組的輸入提交到了官方的ILSVRC服務器。

4.1 SINGLES CALEE VALUATION

我們開始評估在individual CNN模型的執行在一個單尺寸同Sect2.2描述的那樣, test圖片大小是Q=S對於固定的S, Q= (Smin+Smax)/2 對於S屬於[Smin,Smax].

 

首先, 我們注意到使用局部響應正則化(A-LRN)沒有改善相比於沒有任何正則化的模型A. so不再使用正則化.

其次, 我們觀察隨着網絡加深分類錯誤率下降:從11層的A到19層的E. 顯著的是, 即使深度相似, C的配置執行糟糕的比D(使用了3個1X1conv), 這個意味着附加的非線性沒有幫助, 使用conv與非正常的接受域對於捕獲空間context也是非常重要的. 當深度達到19層時,我們的結構的錯誤率就會飽和, 但是更深的網絡可能對於更大的數據集是有益的. 將B網與5×5的卷積層淺網進行了比較, 也每對3X3的卷積代替爲5X5的卷積. shallow net的top-1錯誤率是比B高7%. 確認了更小了濾波器對於深度網絡執行結果優於shallow net大的濾波器.

最後, 訓練時尺度抖動(S屬於[256:512])引領到更好的結果比在固定小的side(S=256或384),即使在測試時使用單一的刻度。證明訓練集合通過尺度抖動而擴張是對於捕獲多尺度圖片統計是有益的.

4.2 MULTI SCALE EVALUATION

在單尺度上評估ConvNet模型後,我們現在評估測試時尺度抖動的影響。它包括在一張測試圖像的幾個歸一化版本上運行模型(對應於不同的Q值),然後對所得到的類別後驗進行平均。考慮到訓練和測試尺度之間的巨大差異會導致性能下降,用固定S訓練的模型在三個測試圖像尺度上進行了評估,接近於訓練一次:

同時,訓練時的尺度抖動允許網絡在測試時應用於更廣的尺度範圍,所以用變量訓練的模型在更大的尺寸範圍上進行評估。

表4中給出的結果表明,測試時的尺度抖動導致了更好的性能(與在單一尺度上相同模型的評估相比,如表3所示)。如前所述,最深的配置(D和E)執行最佳,並且尺度抖動優於使用固定最小邊S的訓練。我們在驗證集上的最佳單網絡性能爲24.8%/7.5% top-1/top-5的錯誤率(在表4中用粗體突出顯示)。在測試集上,配置E實現了7.3% top-5的錯誤率。

 

4.3 M ULTI - CROP EVALUATION

在表5中,我們將稠密ConvNet評估與多裁剪圖像評估進行比較(細節參見第3.2節)。我們還通過平均其soft-max輸出來評估兩種評估技術的互補性。可以看出,使用多裁剪圖像表現比密集評估略好,而且這兩種方法確實是互補的,因爲它們的組合優於其中的每一種。如上所述,我們假設這是由於卷積邊界條件的不同處理。

表5:ConvNet評估技術比較。在所有的實驗中訓練尺度S從[256;512]採樣,三個測試適度Q考慮:{256, 384, 512}。

 

4.4 CONV NET FUSION

到目前爲止,我們評估了ConvNet模型的性能。在這部分實驗中,我們通過對soft-max類別後驗進行平均,結合了幾種模型的輸出。由於模型的互補性,這提高了性能,並且在了2012年(Krizhevsky等,2012)和2013年(Zeiler&Fergus,2013;Sermanet等,2014)ILSVRC的頂級提交中使用。

結果如表6所示。在ILSVRC提交的時候,我們只訓練了單規模網絡,以及一個多尺度模型D(僅在全連接層進行微調而不是所有層)。由此產生的7個網絡組合具有7.3%的ILSVRC測試誤差。在提交之後,我們考慮了只有兩個表現最好的多尺度模型(配置D和E)的組合,它使用密集評估將測試誤差降低到7.0%,使用密集評估和多裁剪圖像評估將測試誤差降低到6.8%。作爲參考,我們表現最佳的單模型達到7.1%的誤差(模型E,表5)。

4.5 C OMPARISON WITH THE S TATE OF THE A RT

表6:多個卷積網絡融合結果

最後,我們在表7中與最新技術比較我們的結果。在ILSVRC-2014挑戰的分類任務(Russakovsky等,2014)中,我們的“VGG”團隊獲得了第二名,

使用7個模型的組合取得了7.3%測試誤差。提交後,我們使用2個模型的組合將錯誤率降低到6.8%。

表7:在ILSVRC分類中與最新技術比較。我們的方法表示爲“VGG”。報告的結果沒有使用外部數據。

5 C ONCLUSION

在這項工作中,我們評估了非常深的卷積網絡(最多19個權重層)用於大規模圖像分類。已經證明,表示深度有利於分類精度,並且深度大大增加的傳統ConvNet架構(LeCun等,1989;Krizhevsky等,2012)可以實現ImageNet挑戰數據集上的最佳性能。在附錄中,我們還顯示了我們的模型很好地泛化到各種各樣的任務和數據集上,可以匹敵或超越更復雜的識別流程,其構建圍繞不深的圖像表示。我們的結果再次證實了深度在視覺表示中的重要性.

 

A Localisation

在論文的主幹部分我們討論了ILSVRC挑戰的分類任務, 並且對於不同深度的CNN進行評估. 在這個部分, 我們轉變挑戰的定位任務, 我們在2014年贏得了25.3%的誤差. 他可以看做目標檢測的一個特別的情況, top-5分類的每一個單一的目標邊界框應該是被預測的, 而和一個class裏面的目標的實際數量是沒有關係的. 對於這個問題我們採取了Sermanet團隊的方法, 做了一些改動, 下面將描述我們的模型.

 

A.1 Localisation convnet

對於目標定位, 我們使用一個非常深的卷積網絡, 最後FC層預測邊界的框而不是class scores.一個邊界框是被一個思維的向量代表: 中心點座標, 寬和高. 有一個選擇是是否所有的類邊界框共享. 在前面的例子中, 最後一層是4維, 而如果不共享, 則最後一層是4000維(因爲有1000個分類). 先不考慮最後的邊界層, 我們使用網絡D(table1)包含16個權重層, 是被發現有最好的執行效果在分類任務中.

Training. 定位卷積的訓練是和分類任務相似的. 主要的不同時我們用Euclidean loss 取代 logistic, 代表預測的邊界框參數與真實值的偏差。我們訓練了兩個localisation模型, 分別是S=256和S=384(主要是沒有空做抖動S). 訓練初始化時和分類模型相同, 初始學習率是0.001/ 通過微調所有層和微調前兩個FC. 最後FC隨機初始化, 然後從無到有的訓練.

Testing. 我們考慮兩種測試協議.第一個用於比較驗證集上的不同網絡修改,並僅考慮基礎事實類的邊界框預測(以分解分類錯誤)。通過僅將網絡應用於圖像的中心裁剪來獲得邊界框。第二個完全成熟的測試程序基於將定位ConvNet密集應用於整個圖像. 不同之處在於,最後一個完全連接的層的輸出是一組邊界框預測,而不是類得分圖.爲了得出最終預測,我們利用Sermanet等人的貪婪合併程序. 首先合併空間上接近的預測(通過平均他們的座標),然後根據從分類ConvNet獲得的類別分數對它們進行評估。當使用幾個localisation ConvNets時,我們首先take union它們的邊界框預測集合,然後在union上運行合併程序。我們沒有使用Sermanet等人的multiple pooling offsets technique。 (2014),它增加了邊界框預測的空間分辨率,並可以進一步改善結果.

 

A.2 L OCALISATION E XPERIMENTS

在本節中,我們首先確定性能最佳的localisation setting (使用第一個測試協議),然後在完全成熟的場景(第二個協議)中對其進行評估.根據ILSVRC標準測量定位誤差,即如果邊界框預測與真實邊界框的交聯超過0.5,則認爲邊界框預測是正確的。

Settings comparison. 從表8中可以看出,per class regression(PCR)優於類別不可知的single-class regression (SCR). 我們還注意到,微調localisation任務的所有層導致明顯更好的結果,而不是僅對完全連接的層進行微調.在這些實驗中,最小圖像側設定爲S = 384;S = 256的結果表現出相同的行爲,爲簡潔起見未示出。

表8:使用簡化測試協議進行的不同修改的localisation錯誤

從單箇中心圖像裁剪預測邊界框,並使用真值類. 所有ConvNet層(除最後一層)都具有配置D(表1),而最後一層執行單類迴歸(SCR)或每類迴歸(PCR)。

Fully-fledged evaluation. 在確定了最佳的localisation設置(PCR,微調所有層)之後,我們現在將其應用於完全成熟的場景,其中使用我們的最佳性能分類系統(第4.5節)預測top-5類標籤,並且多個使用Sermanet等人的方法合併密集計算的邊界框預測。從表9中可以看出,與使用中心裁剪(表8)相比,將定位ConvNet應用於整個圖像顯着改善了結果,儘管使用前5個預測類標籤而不是真實的。與分類任務(第4節)類似,在多個尺度上進行測試並結合多個網絡的預測進一步提高了性能。

Comparison with the state of the art. 我們將最佳localisation結果與表10中的最新技術水平進行比較。由於25.3%的測試誤差,我們的“VGG”團隊贏得了ILSVRC-2014的localisation挑戰。值得注意的是,我們的結果比ILSVRC-2013冠軍Overfeat的結果要好得多,儘管我們使用較少的比例並且沒有采用他們的分辨率增強技術。我們設想如果將這種技術結合到我們的方法中,可以實現更好的定位性能。這說明我們非常深的cnn帶來的優勢: 我們獲得了更好的結果通過簡單的localisation方法.

 

 

B GENERALISATION OF VERY DEEP FEATURES

在前面的部分中,我們討論了ILSVRC數據集上非常深的ConvNets的訓練和評估。在本節中,我們將在ILSVRC上預先訓練的ConvNets評估爲其他較小數據集上的特徵提取器,其中由於過度擬合而無法從頭開始訓練大型模型。最近,人們對這種用例感興趣(Zeiler&Fergus,2013; Donahue等,2013; Razavian等,2014; Chatfield等,2014),因爲它證明了這一用例在ILSVRC上學習的表示可以很好地概括爲其他數據集,它們在很大程度上優於手工製作的表示。在這一系列工作之後,我們將研究我們的模型是否能夠比在最先進的方法中使用的更淺層模型獲得更好的性能。在本次評估中,我們考慮了兩種在ILSVRC(第4節)上具有最佳分類性能的模型 - 配置“Net-D”和“Net-E”(我們公開發布)。

爲了利用在ILSVRC上進行預訓練的ConvNets,對其他數據集進行圖像分類,我們刪除了最後一個完全連接的層(執行1000路ILSVRC分類),並使用倒數第二層的4096-D激活作爲圖像特徵,它們是聚合的,跨越多個位置和尺度。得到的圖像描述符是L 2 - 標準化並且與在目標數據集上訓練的線性SVM分類器組合。爲簡單起見,預先訓練的ConvNet權重保持固定(不執行微調).

特徵的聚合以與ILSVRC評估程序類似的方式進行(第3.2節)即,首先對圖像進行重新縮放,使其最小邊等於Q,然後在圖像平面上密集地施加網絡(當所有權重層都被視爲卷積時,這是可能的)。然後,我們在生成的特徵映射上執行全局平均池,從而生成4096-D圖像描述符。正如在Sect4.2中所示對多個尺度的評估是有益的,因此我們提取多個尺度的特徵Q.得到的多尺度特徵可以跨尺度堆疊或彙集. 堆疊允許後續分類器學習如何在一系列尺度上最佳地組合圖像統計;然而,這是以增加描述符維度爲代價的。我們在下面的實驗中回到這個設計選擇的討論。我們還評估了使用兩個網絡計算的特徵的後期融合,其通過堆疊它們各自的圖像描述符來執行。

VOC-2007和VOC-2012的圖像分類。我們首先評估PASCAL VOC-2007和VOC-2012基準的圖像分類任務(Everingham等,2015)這些數據集分別包含10K和22.5K圖像,每個圖像用一個或多個標籤註釋,對應於20個對象類別。VOC組織者提供預定義的分爲培訓,驗證和測試數據(VOC 2012的測試數據不公開;相反,提供官方評估服務器)。使用不同類別的平均精度(mAP)測量識別性能。

值得注意的是,通過檢查VOC-2007和VOC-2012驗證集的性能,我們發現通過平均計算在多個尺度上計算的圖像描述符的聚合與堆疊聚合類似。我們假設這是因爲在VOC數據集中,對象出現在各種尺度上,因此沒有特定的特定於尺度的語義,分類器可以利用這些語義。由於平均具有不誇大描述符維度的好處,因此我們能夠在很大範圍內聚合圖像描述符:Q∈{256,384,512,640,768}。值得注意的是,{256,384,512}較小範圍內的改善相當微不足道(0.3%)。

報告了測試集的性能,並與表11中的其他方法進行了比較。我們的網絡“Net-D”和“Net-E”在VOC數據集上表現出相同的性能,他們的組合輕微改善了結果。我們的方法在ILSVRC數據集上預先訓練的圖像表示中設置了新的技術水平,優於Chatfield等人之前的最佳結果。 (2014年)超過6%. 應該注意的是Wei等人的方法。 (2014),在VOC-2012上實現了1%更好的mAP,在2000級ILSVRC擴展數據集上預先培訓,其中包括額外的1000個類別,在語義上接近於VOC數據集中的類別。它還受益於與物體檢測輔助分類管道的融合。

ImageClassificationon Caltech-101和Caltech-256。在本節中,我們評估了Catech-101(Fei-Fei等,2004)和Caltech-256(Griffin等,2007)圖像分類基準的每個深層特徵。Caltech-101包含標記爲102個類別(101個對象類別和背景類別)的9K圖像,而Caltech-256更大,具有31K圖像和257個類別。這些數據集上的標準評估協議是生成幾個隨機分組到訓練和測試數據中,並報告分裂中的平均識別性能,這是通過平均類別回憶(其補償每個類別的不同數量的測試圖像)來測量的。繼Chatfield等人(2014年); Zeiler&Fergus(2013);他等人。 (2014年),在Caltech-101上,我們生成了3個隨機分組到訓練和測試數據中,因此每個分組包含每個類30個訓練圖像,每個類最多50個測試圖像。在Caltech-256上,我們還生成了3個分裂,每個分裂包含60個訓練圖像(其餘用於測試)。在每次分割中,20%的訓練圖像被用作超參數選擇的驗證集。

我們發現,與VOC不同,在加州理工學院的數據集中,在多個尺度上計算的描述符堆疊比平均或最大池化表現更好。這可以通過以下事實來解釋:在Caltech圖像中,對象通常佔據整個圖像,因此多尺度圖像特徵在語義上是不同的(捕獲整個對象與對象部分),並且堆疊允許分類器利用這種特定於比例的表示。我們使用三個尺度Q∈{256,384,512}。

我們的模型與其他每個模型和表11中的theart狀態進行了比較。可以看出,更深層的19層Net-E比16層Net-D表現更好,它們的組合進一步提高了性能。在Caltech-101上,我們的陳述與Heetal (2014)的方法相比具有競爭力,然而,這種方法的表現明顯差於我們在VOC2007上的網絡。在Caltech-256上,我們的功能大大超過了現有技術水平(Chatfield等,2014),大幅提升(8.6%)。

VOC-2012的行動分類。我們還在PASCAL VOC-2012行動分類任務(Everingham等,2015)上評估了我們表現最佳的圖像表示(Net-D和Net-E特徵的堆疊),其中包括從單個預測動作類圖像,給出執行動作的人的邊界框。該數據集包含4.6K訓練圖像,標記爲11個類。與VOC-2012對象分類任務類似,使用mAP測量性能。我們考慮了兩種訓練設置:(i)在整個圖像上計算ConvNet特徵並忽略提供的邊界框; (ii)計算整個圖像和所提供的邊界框上的特徵,並堆疊它們以獲得最終表示。將結果與表12中的其他方法進行比較。

即使不使用提供的邊界框,我們的表示也實現了VOC動作分類任務的現狀,並且當使用圖像和邊界框時,結果得到進一步改善。與其他方法不同,我們沒有包含任何特定於任務的啓發式方法,而是依賴於非常深度卷積特徵的表示能力。

其他識別任務。自公開發布我們的模型以來,它們一直被研究界廣泛用於各種圖像識別任務,始終優於更淺層的表示。例如,Girshick等。 (2014)通過替換Krizhevsky等人的ConvNet來實現目標檢測結果的狀態。 (2012)與我們的16層模型。與Krizhevsky等人的更淺層架構相似。 (2012)已經在語義分割(Long et al。,2014),圖像標題生成(Kiros et al。,2014; Karpathy&Fei-Fei,2014),紋理和材料識別(Cimpoi等,2014; Bell等,2014)。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章