【論文翻譯--AlexNet網絡】ImageNet Classification with Deep ConvolutionalNeural Networks

【論文翻譯】ImageNet Classification with Deep ConvolutionalNeural Networks

【原文鏈接】http://xanadu.cs.sjsu.edu/~drtylin/classes/cs267_old/ImageNet%20DNN%20NIPS2012(2).pdf

【翻譯時間】2018.09.10

【完成時間】2018.09.11

                             題目:基於深度卷積神經網絡的圖像網絡分類

Abstract 

   我們訓練了一個大型的、深卷積的神經網絡,將ImageNet lsvrc-2010比賽中的120萬張高分辨率圖像分類爲1000個不同的類。在測試數據上,我們得到了前1位和前5位的錯誤率( top-5 error rates)分別爲37.5%和17.0%,這比以前的先進水平要好得多。神經網絡,有6000萬個參數和65萬個神經元,由五個卷積層組成,其中一些緊隨其後的是最大池層,三個完全連接的層,最後是1000路的Softmax。爲了使訓練更快,我們使用非飽和神經元和一個非常有效的GPU實現卷積運算。爲了減少完全連接層中的過度擬合,我們使用了最近開發的稱爲“Dropout”的正則化方法,它被證明是非常有效的。我們還在ILSVRC-2012競賽中輸入了該模型的一個變體,並且獲得了15.3%的獲獎前5位的測試錯誤率(top-5 error rates),相比之下,第二佳參賽者獲得了26.2%的錯誤率。

 

1 Introduction

    當前的目標識別方法主要是利用機器學習方法。爲了提高它們的性能,我們可以收集更大的數據集,學習更強大的模型,並使用更好的技術來防止過度擬合。直到最近,標記圖像的數據集還相對較小-大約有數萬幅圖像(例如Norb[16]、Caltech-101/256[8,9]和CIFAR-10/100[12])。使用這種大小的數據集可以很好地解決簡單的識別任務,特別是如果它們是通過保留標籤的轉換來增強的話。例如,mnist數字識別任務上的當前最佳錯誤率(<0.3%)接近人類性能[4]。但是現實環境中的物體具有很大的可變性,因此要學會識別它們,就必須使用更大的訓練集。事實上,小圖像數據集的缺點已得到廣泛承認(例如,pinto等人)。([21]),但直到最近纔有可能收集數百萬張圖像的標記數據集。新的更大的數據集包括Labelme[23]和ImageNet[6],前者包括幾十萬張完整分割的圖像,後者包含超過1,500萬幅標記爲高分辨率的圖像,涉及22,000多個類別。

  

   要從數百萬張圖像中瞭解數千個物體,我們需要一個具有很大學習能力的模型。然而,目標識別任務的巨大複雜性意味着,即使是象ImageNet這樣大的數據集也不能指定( specified)這個問題,因此我們的模型還應該有大量的先驗知識來補償所有我們沒有的數據。卷積神經網絡(CNN)構成這類模型[16,11,13,18,15,22,26]。它們的容量可以通過改變它們的深度和寬度來控制,它們還對圖像的性質(即統計數據的平穩性和像素依賴性的局部性(stationarity of statistics and locality of pixel dependencies)))做出了強有力的、大多數是正確的假設。因此,與具有類似尺寸層的標準前饋神經網絡相比,CNN的連接和參數要少得多,因此它們更易於訓練,而理論上最好的性能可能只是稍微差一些。

  

   儘管CNN具有吸引人的特性,儘管其本地架構的效率相對較高,但大規模應用於高分辨率圖像的成本仍然非常昂貴。幸運的是,當前的GPU與高度優化的2D卷積實現結合在一起,強大到足以促進有趣的大型( interestingly-large)cnn的培訓,而且最近的數據集(如ImageNet)包含了足夠多的標記示例來訓練這樣的模型,而沒有嚴重的過度擬合。

   

   本文的具體貢獻如下:我們就ILSVRC-2010和ILSVRC-2012競賽中使用的ImageNet子集[2]訓練了迄今最大的卷積神經網絡之一,並取得了迄今爲止在這些數據集上所報道的最佳結果。我們編寫了一個高度優化的GPU實現的2d卷積和所有其他操作,這些是在訓練卷積神經網絡固有的,並且我們公開提供( http://code.google.com/p/cuda-convnet/)。我們的網絡包含了一些新的和不尋常的特徵,它們提高了性能並縮短了訓練時間,詳見第三節。我們網絡的規模使得過擬合成爲一個重大的問題,即使有120萬個有標記的培訓示例,所以我們使用了幾種有效的技術來防止過度擬合,這在第4節中描述。我們的最終網絡包含五個卷積層和三個完全連接的層,這個深度似乎很重要:我們發現刪除任何卷積層(每個卷積層包含的參數不超過模型參數的1%)導致性能較差。

   

    最後,網絡的大小主要受到當前GPU上可用的內存數量和我們願意容忍的培訓時間的限制。我們的網絡需要五到六天的時間來訓練,在兩個GTX 580 3GB的GPU上。我們所有的實驗都表明,只要等待更快的GPU和更大的數據集可用,我們的結果就可以得到改善。

 

2 The Dataset

       ImageNet是一個擁有1500萬多個標籤的高分辨率圖像的數據集,屬於大約22,000個類別。這些圖片是從網絡上收集的,並由人類貼上標籤,使用的是亞馬遜(Amazon)的TURK機械式人羣搜索工具( Amazon’s Mechanical Turk crowd-sourcing tool)。從2010年開始,作爲Pascal視覺物體挑戰的一部分,每年舉行一次名爲ImageNet大規模視覺識別挑戰(ILSVRC)的競賽。 ILVRC使用IMANET的一個子集,在1000個類別中的每一個大約有1000個圖像。. 總共有大約120萬個訓練圖像,50000個驗證圖像和150000個測試圖像。

      ILSVRC-2010是唯一可用測試集標籤的ILSVRC版本,因此這是我們進行大部分實驗的版本。由於我們也使用我們的模型參加了ILSVRC-2012競賽,在第6節我們報告我們在這個版本的數據集的結果以及,在測試集標籤是不可用的版本的結果( we report our results on this version of the dataset as well, for which test set labels are unavailable. )。在ImageNet上,通常報告兩個錯誤率:top-1和top-5,其中前5錯誤率是測試圖像中的一部分,這部分的正確的標籤不在模型認爲最可能的五個標籤中,(佔所有測試圖像的比例)。

    ImageNet由可變分辨率的圖像組成,而我們的系統需要恆定的輸入維數。因此,我們將圖像降採樣到256×256的固定分辨率。給出一幅矩形圖像,我們首先對圖像重新縮放( rescaled),使較短的邊長爲256,然後從得到的圖像中裁剪出中心256×256塊。我們沒有以任何其他方式對圖像進行預處理,除了從每個像素中減去訓練集上的平均活動外。因此,我們將我們的網絡訓練,在像素的(中心)原始RGB值上。

  

3 The Architecture

  我們的網絡體系結構在圖2中進行了總結。它包含八個學習層-五個卷積層和三個完全連接層。下面,我們描述了我們網絡體系結構的一些新的或不尋常的特性。第3.1-3.4節是根據我們對它們重要性的估計來排序的,3.1是最重要的部分。

 

  • 3.1 ReLU Nonlinearity(非線性)

       將神經元輸出f建模爲輸入x函數的標準方法是: f(x) = tanh(x)或者 f(x) = (1 + e^ −x ) ^−1。在梯度下降訓練時間上,這些線性飽和比非飽和非線性f(X)=max(0,x)慢得多。繼Nair和Hinton[20]之後,我們將具有這種非線性的神經元稱爲校正線性單元(Relus)。帶ReLUs的深層卷積神經網絡的訓練速度比它們帶Tanh單元的等價神經網絡快幾倍。圖1演示了這一點,圖1顯示了在CIFAR-10數據集上爲特定的四層卷積網絡要求達到25%訓練誤差的迭代次數。這幅圖表明,如果我們使用傳統的飽和神經元模型,我們就不能用這麼大的神經網絡進行實驗。

 

       圖1:四層卷積神經網絡在 CIFAR-10 上的訓練誤差率達到25%,比等效的tanh神經元網絡(虛線)快6倍。每個網絡的學習速度是獨立選擇的,以使訓練儘可能快。沒有任何形式的正則化。這裏顯示的效果的大小隨網絡 結構而不同,但是使用ReLUs的網絡在某種程度上比飽和神經元的等效網絡學習速度快幾倍

  

     我們不是第一個在CNN中考慮替代傳統神經元模型的人。例如,Jarrett Etal.[11]聲明,在Caltech-101數據集上,在使用其類型的對比規範化,然後是本地平均池的情況下,非線性化特別有效。然而,在這個數據集上,主要關注的是防止過度擬合,因此他們所觀察到的效果不同於我們在使用REUS時報告的適應訓練集的加速能力。快速學習對在大型數據集上訓練的大型模型的性能有很大的影響。

 

  • 3.2 Training on Multiple GPUs

 

       一個GTX 580 GPU只有3GB的內存,這限制了可以在其上訓練的網絡的最大大小。事實證明,120萬個訓練例子已經足夠訓練網絡,因爲網絡太大,不適合一個GPU。因此,我們將網絡分佈在兩個GPU上。當前的gpu特別適合於交叉gpu並行化,因爲它們能夠直接從彼此的內存讀取和寫入,而無需通過主機內存。我們使用的並行化方案基本上將一半的內核(或神經元)放在每個GPU上,還有一個額外的技巧:GPU只在特定的層上進行通信。這意味着,例如,層3的內核從層2中的所有內核映射獲取輸入。然而,第4層中的內核只從位於同一GPU的第3層中的內核映射輸入。選擇連接模式是交叉驗證的一個問題,但這允許我們精確地調整通信量,直到它成爲計算量的可接受的一小部分。

    

     其結果結構有點類似於由cire,San等人使用的“柱狀”CNN的結構。[5],但我們的列不是獨立的(見圖2)。該方案將前1和前5位錯誤率分別降低了1.7%和1.2%,而在一個GPU上訓練的每個卷積層的核數只有其一半。而在一個GPU上訓練的每個卷積層的核數只有其一半。

  (補充說明:1-GPU網實際上與最終卷積層中的2-GPU網具有相同的核數,這是因爲網絡的大部分參數都在第一完全連通層,這是以最後一層卷積層爲輸入,因此爲了使這兩網具有大致相同的參數,我們沒有將最終卷積層(或完全連接層)的大小減半。因此,這種比較偏向於一個GPU網,因爲它比兩個GPU網的一半大。)

 

  • 3.3 Local Response Normalization

 

        relus具有不需要輸入規範化以防止它們飽和的可取性質。如果至少有一些訓練的例子對一個神經元產生積極的輸入,那麼學習就會在這個神經元中發生。然而,我們仍然發現,下面的局部規範化方案有助於泛化(aids generalization)。用表示神經元的激活,它用核i在位置(x,y)計算,然後應用ReLU非線性,由以下表達式給出響應歸一化激活

         

        其中求和運算在n個“毗鄰的”核映射的同一位置上執行,N是本層的卷積核數目。。當然,內核映射的排序是任意的,並且是在訓練開始之前確定的。這種反應歸一化實現了一種由真實神經元中的類型激發的橫向抑制( lateral inhibition)形式,在使用不同內核計算的神經元輸出之間產生了對大激活的競爭。常數k、n、α和β是超參數,其值由驗證集確定;我們使用k=2,n=5,α=10−4和β=0.75。在某些層中應用了relu非線性後,我們應用了這種歸一化(見第3.5節)。

          

       該方案與Jarrett等人的局部對比歸一化方案有一定的相似之處[11],但是我們的更正確的說法是“亮度歸一化”,因爲我們不減去平均激活。響應歸一化將我們的top-1和top-5錯誤率分別降低1.4%和1.2%。我們還在 CIFAR-10數據集上驗證了該方案的有效性:四層cnn在不進行歸一化的情況下獲得了13%的測試錯誤率,而通過歸一化實現了11%。

 

  • 3.4 Overlapping Pooling(重疊池化)

 

         CNN中的池層概括了同一核映射中相鄰神經元羣的輸出。傳統上,由相鄰的集合單元概括的社區不重疊(例如,[17,11,4])。更準確地說,一個池層可以被認爲是由一個集合單元組成的網格,這些單元之間間隔着s個像素,每個像素都概括了一個大小爲z×z的鄰域,該鄰域以池單元的位置爲中心。如果設爲s=z,則得到CNN中常用的傳統本地池化。如果設置s<z,我們將得到重疊池化。這是我們在整個網絡中使用的,S=2,Z=3。與產生等效尺寸輸出的不重疊格式s=2,z=2相比,該方案的前1位和前5位錯誤率分別降低了0.4%和0.3%。我們通常觀察到,在訓練過程中,具有重疊池的模型會發現更難過擬合。

 

  • 3.5 Overall Architecture(總體結構

 

       現在我們準備描述CNN的總體架構。如圖2所示,網絡包含八個具有權重的層;前五個層是卷積層,其餘三個層是完全連接的。如圖2所示,網絡包含八個具有權重的層;前五個層是卷積層,其餘三個層是完全連接的。我們的網絡最大限度地實現了多項式Logistic迴歸目標,這相當於在預測分佈下,最大限度地最大化訓練案例中正確標籤的對數概率的平均值。

  

      第二層、第四層和第五層的內核僅連接到位於同一GPU上的前一層中的內核映射(參見圖2)。第三卷積層的核連接到第二層中的所有核映射。完全連接層中的神經元連接到前一層的所有神經元。

響應-歸一化層跟隨在第一和第二卷積層後面。3.4節描述的這種最大池化層在響應歸一化層和第5卷積層之後。對每個卷積層和全連通層的輸出均採用了ReLu非線性激活函數。

    

     第1卷積層使用96個核對224 × 224 × 3的輸入圖像進行濾波,核大小爲11 × 11 × 3,步長是4個像素(這是核映射中相鄰神經元感受野中心之間的距離)。第二卷積層以第一卷積層的(響應歸一化和池化的)輸出爲輸入,對其進行5×5×48的256核濾波。第三層、第四層和第五層相互連接,沒有任何中間的池或規範化層。第三卷積層有384個大小爲3×3×256的核,與第二卷積層的(歸一化、集合)輸出相連接,第四卷積層有384個3×3×192核,第五卷積層有256個3×3×192核,完全連接層各有4096個神經元。

 

    圖2:說明我們cnn的架構,顯式地顯示了兩個GPU之間的職責劃分。一個GPU運行圖層-部分在圖的頂部,而另一個在底層運行。GPU只在特定的層上進行通信。該網絡的輸入爲150528維,網絡剩餘層的神經元數爲253440--186624---64896---64896---43264---4096---4096---1000

 

4 Reducing Overfitting(減少過擬合)

 

    我們的神經網絡結構有6000萬個參數。儘管ILSVRC的1000類使每個訓練樣本從圖像到標籤的映射上強加了10比特的約束,但這並不足以學習這麼多的參數而沒有相當大的過擬合。下面,我們描述了兩種主要的方法來對抗過度適應。

   

  • 4.1 Data Augmentation

 

       減少圖像數據過度擬合的最簡單和最常見的方法是使用保留標籤的變換(例如,[25,4,5])人爲地擴大數據集。我們採用了兩種不同的數據增強形式,它們都允許從原始圖像中生成轉換後的圖像,而且計算量很小,因此轉換後的圖像不需要存儲在磁盤上。在我們的實現中,轉換後的圖像是在CPU上用python代碼生成的,而GPU正在對前一批圖像進行培訓。因此,這些數據增強方案實際上是免費的。

 

     數據增強的第一種形式是生成圖像平移和水平反射(horizontal reflections)。我們通過從256×256圖像中隨機提取224×224塊(及其水平反射)來實現這一點,並在這些提取的補丁上訓練我們的網絡(這就是爲什麼圖2中的輸入圖像爲224×224×3維的原因)。這使我們訓練的規模增加了2048倍,儘管由此產生的訓練例子當然是高度相互依賴的。這使我們訓練的規模增加了2048的一倍( a factor of 2048),儘管由此產生的訓練例子當然是高度相互依賴的。在測試時,網絡通過提取五個224×224個補丁(四個角點和中心塊)以及它們的水平反射(總共10個補丁)進行預測,並將網絡的Softmax層對這10個補丁進行平均預測。

   

   第二種數據增強形式是改變訓練圖像中rgb通道的強度。具體來說,我們對整個ImageNet培訓集中的RGB像素值執行PCA。對於每個訓練圖像,我們添加找到的主分量的倍數,其大小與對應的特徵值成正比,乘以一個隨機變量,該隨機變量取自平均值爲零且標準偏差爲0.1的高斯函數。因此對於每幅RGB圖像像素,我們加上下面的量:

                                                                                                          

pi,λi分別是RGB像素值3 × 3協方差矩陣的第i個特徵向量和特徵值,αiαi是前面提到的隨機變量。對於某個訓練圖像的所有像素,每個αiαi只獲取一次,直到圖像進行下一次訓練時才重新獲取。

該方案近似地捕捉了自然圖像的一個重要特性,即物體的身份對光照強度和顏色的變化是不變的。該方案使top-1錯誤率降低了1%以上.

 

  • 4.2 Dropout

 

         將許多不同模型的預測結合起來是減少測試錯誤[1,3]的一種非常成功的方法,但對於已經需要幾天訓練的大型神經網絡來說,這似乎太昂貴了。但是,有一個非常有效的模型組合版本,在培訓期間只需花費大約兩倍的費用。這種最近引入的技術,叫做“dropout”[10],它會以0.5的概率對每個隱層神經元的輸出設爲0。以這種方式“退出”的神經元對前向沒有貢獻,也不參與反向傳播。因此,每次輸入時,神經網絡都會對不同的結構進行採樣,但所有這些結構都具有相同的權重。這項技術減少了神經元的複雜共適應(complex co-adaptations ),因爲神經元不能依賴特定的其他神經元的存在。因此,它不得不學習更健壯的特徵,這些特徵與其他神經元的許多不同的隨機子集相結合是有用的。在測試時,我們使用所有的神經元但它們的輸出乘以0.5,對指數級的許多失活網絡的預測分佈進行幾何平均,這是一種合理的近似。

 

     我們在圖2的前兩個完全連接的層中使用Dropout。如果沒有Dropout,我們的網絡表現出很大的過擬合。 失活大致上使要求收斂的迭代次數翻了一倍。

 

5 Details of learning

   

    我們用隨機梯度下降訓練我們的模型,小批次的大小爲128個例子,動量爲0.9,權重衰減爲0.0005。我們發現這種微小的權重衰減對模型的學習是很重要的。換句話說,這裏的權重衰減不僅僅是正則化的:它減少了模型的訓練誤差。權重w的更新規則是:

其中,

    我們從零均值高斯分佈中初始化了每一層的權重,標準偏差爲0.01。我們用常數1初始化了第二層、第四層和第五層以及完全連接的隱藏層中的神經元偏差。這種初始化通過向ReLU提供正的輸入,加快了學習的早期階段。我們用常數0初始化剩餘層中的神經元偏差。

 

   我們對所有層次都使用了相同的學習速率,在整個培訓過程中我們手動調整了這一比率。我們遵循的啓發式方法是,當驗證錯誤率隨着當前學習速度的提高而停止提高時,將學習率除以10。學習率在終止前被初始化爲0.01,並減少三次(reduced three times)。我們通過120萬張圖像訓練了大約90個週期,在兩個NVIDIA GTX 580 3GB GPU上花費了5-6天的時間。

 

6 Results

  

      我們在ILSVRC-2010上的結果彙總在表1中。我們的網絡達到了top-1和top-5測試集錯誤率分別爲37.5%和17.0%。在ILSVRC-2010競賽中所取得的最佳性能分別爲47.1%和28.2%,它採用的方法是對針對不同特徵的6個稀疏編碼模型進行平均預測[2];之後,採用一種方法,公佈最佳結果分別爲45.7%和25.7%。用一種平均的方法,由兩種密集採樣的特徵計算出兩個訓練在Fisher向量(FVS)上的分類器的預測[24]。

  

   我們也用我們的模型參加了ILSVRC-2012競賽並在表2中報告了我們的結果。由於ILSVrc-2012測試集標籤是不可公開的,因此我們不能報告我們嘗試過的所有模型的測試錯誤率。在本段的其餘部分中,我們互換地使用驗證和測試錯誤率,因爲在我們的經驗中,它們的差異不超過0.1%(見表2)。  本文所描述的CNN的誤差率爲18.2%,平均5個相似的CNN的預測誤差爲16.4%。爲了對ImageNet 2011秋季發佈的整個數據集(1500萬圖像,22000個類別)進行分類,我們在最後的池化層之後有一個額外的第6卷積層,訓練了一個CNN,然後在它上面進行“fine-tuning”,在ILSVRC-2012取得了16.6%的錯誤率。 對在ImageNet 2011秋季發佈的整個數據集上預訓練的兩個CNN和前面提到的五個CNN的預測進行平均得到了15.3%的錯誤率。第二次最佳競賽條目的誤差率爲26.2%,該方法平均了幾個根據不同類型的密集抽樣特徵計算的fv上訓練的分類器的預測[7]。

 

      最後,我們還報告了我們在2009年秋季版ImageNet的錯誤率( on the Fall 2009 version of ImageNet),包括10184個類別和890萬幅圖像。在這個數據集上,我們遵循文獻中使用一半圖像進行訓練和一半用於測試的慣例。由於沒有建立測試集,我們的拆分必然與以前的作者使用的拆分不同,但這並不會對結果產生明顯的影響。我們在這個數據集上的前1和前5錯誤率分別爲67.4%和40.9%,由上面描述的網絡實現,但是在最後一個池層上有一個額外的第六個卷積層。在這個數據集上發表的最好的結果是78.1%和60.9%[19]。

 

  • 6.1 Qualitative Evaluations(定性評價

 

    圖3顯示了網絡的兩個數據連接層學習到的卷積內核。該網絡已經學習了各種頻率和方向選擇內核,以及各種彩色斑點。注意這兩個GPU顯示的專門化,這是3.5節中描述的受限連接的結果。注意這兩個GPU顯示的專門化,這是3.5節中描述的受限連接的結果。這種專門化在每次運行時都會發生,並且獨立於任何特定的隨機權值初始化(模塊化,GPU的重編碼)。

   

 

     在圖4的左側面板中,我們通過計算8個測試圖像的前5位預測來定性地評估網絡學到了什麼。注意,即使是偏離中心的對象,如左上角的蟎,也可以被網絡識別。大多數前五名的標籤似乎都是合理的。例如,只有其他類型的貓被認爲是豹的合理標籤。在某些情況下(格柵,櫻桃),照片的預定焦點確實含糊不清。

 

    另一種探索網絡視覺知識的方法是考慮圖像在最後4096維隱層引起的特徵激活。如果兩幅圖像產生的特徵激活向量具有較小的歐氏距離,則可以說神經網絡的較高層次認爲它們是相似的。圖4顯示了來自測試集的5個圖像和來自培訓集的6個圖像,它們非常相似。例如,檢索到的狗和大象以各種姿勢出現。我們在補充材料中給出了更多測試圖像的結果。

        用歐氏距離計算兩個4096維的實數向量之間的相似性是效率低下的,但通過訓練一個自動編碼器將這些向量壓縮爲短二值編碼可以使其變得高效。這將產生一個更好的圖像檢索方法,而不是將自動編碼器應用於原始像素[14],後者不使用圖像標籤,因此有一種傾向於檢索具有相似邊緣模式的圖像,無論它們在語義上是否相似。

7 Discussion

 

   我們的結果表明,一個大型的、深卷積的神經網絡能夠利用純監督學習在極具挑戰性的數據集上獲得破紀錄的結果。值得注意的是,如果去掉單個卷積層,我們網絡的性能就會下降。例如,刪除任何中間層會導致網絡頂層性能損失約2%。因此,深度對於實現我們的成果來說是非常重要的。

    

   爲了簡化我們的實驗,我們沒有使用任何無監督的預訓練,儘管我們希望它會有所幫助,特別是在如果我們能獲得足夠的計算能力來顯著增加網絡的大小而標註的數據量沒有對應增加的情況下。到目前爲止,我們的結果已經有所改善,因爲我們已經使我們的網絡更大,訓練更長,但爲了匹配人類視覺系統的下顳線(視覺專業術語)我們仍然有許多數量級要達到。 最後,我們希望在視頻序列上使用非常大和深的卷積網,其中時間結構提供了非常有用的信息,這些信息在靜態圖像中是缺失的,或者是不那麼明顯的。

 

References

 

[1] R.M.BellandY.Koren. Lessonsfromthenetflixprizechallenge. ACMSIGKDDExplorationsNewsletter,

9(2):75–79, 2007.

[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.image-

net.org/challenges. 2010.

[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.

[4] D. Cire¸ san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.

Arxiv preprint arXiv:1202.2745, 2012.

[5] D.C. Cire¸ san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural

networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.

[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical

Image Database. In CVPR09, 2009.

[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL

http://www.image-net.org/challenges/LSVRC/2012/.

[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An

incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understand-

ing, 106(1):59–70, 2007.

[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, Cali-

fornia Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.

[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural net-

works by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.

[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for

object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.

[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of

Computer Science, University of Toronto, 2009.

[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.

[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In

ESANN, 2011.

[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Hand-

written digit recognition with a back-propagation network. In Advances in neural information processing

systems, 1990.

[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to

pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the

2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.

[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In

Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256.

IEEE, 2010.

[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsuper-

visedlearningofhierarchicalrepresentations. InProceedingsofthe26thAnnualInternationalConference

on Machine Learning, pages 609–616. ACM, 2009.

[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classifi-

cation: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer

Vision, Florence, Italy, October 2012.

[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th

International Conference on Machine Learning, 2010.

[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computa-

tional biology, 4(1):e27, 2008.

[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering

good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,

2009.

[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for

image annotation. International journal of computer vision, 77(1):157–173, 2008.

[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification.

InComputerVisionandPatternRecognition(CVPR),2011IEEEConferenceon, pages1665–1672.IEEE,

2011.

[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to

visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis

and Recognition, volume 2, pages 958–962, 2003.

[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman, W. Denk, and H.S. Seung. Con-

volutional networks can learn to generate affinity graphs for image segmentation. Neural Computation,

22(2):511–538, 2010.

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章