AlexNet論文(ImageNet Classification with Deep Convolutional Neural Networks)(譯)

前言

最近一直比較忙,總算纔有時間看點深度學習的論文。這篇論文是大神Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton三人提出的AlexNet深度卷積神經網絡,摘得了2010年ILSVRC比賽的桂冠。AlexNet在現在也經常會用到,可以說是很經典的一個CNN框架了。出於學習的目的,一方面可以做筆記,一方面也可以督促自己的學習,我纔打算翻譯下這篇論文。由於個人水平有限,翻譯僅供參考,如有錯誤,歡迎交流指正。
下面是一些可能有用的參考資料:
論文原文:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
基於caffe的實現:http://caffe.berkeleyvision.org/gathered/examples/imagenet.html

翻譯正文

ImageNet Classification with Deep Convolutional Neural Networks

摘要

我們訓練了一個龐大的深層卷積神經網絡,將ImageNet LSVRC-2010比賽中的120萬張高分辨率圖像分爲1000個不同的類別。在測試數據上,我們取得了37.5%和17.0%的前1和前5的錯誤率,這比以前的先進水平要好得多。具有6000萬個參數和650,000個神經元的神經網絡由五個卷積層組成,其中一些隨後是最大池化層,三個全連接層以及最後的1000個softmax輸出。爲了加快訓練速度,我們使用非飽和神經元和能高效進行卷積運算的GPU實現。爲了減少全連接層中的過擬合,我們採用了最近開發的稱爲“dropout”的正則化方法,該方法證明是非常有效的。我們還在ILSVRC-2012比賽中使用了這種模式的一個變種,取得了15.3%的前五名測試失誤率,而第二名的成績是26.2%。

1、介紹

目前,機器學習方法對物體識別非常重要。爲了改善他們的表現,我們可以收集更大的數據集,訓練更強大的模型,並使用更好的技術來防止過擬合。直到最近,標記好圖像的數據集相對還較小——大約上萬的數量級(例如,NORB [16],Caltech-101/256 [8,9]和CIFAR-10/100 [12])。使用這種規模的數據集可以很好地解決簡單的識別任務,特別是如果他們增加了保留標籤轉換(label-preserving transformations)。例如,目前MNIST數字識別任務的最低錯誤率(<0.3%)基本達到了人類的識別水平[4]。但是物體在現實環境中可能表現出相當大的變化性,所以要學會識別它們,就必須使用更大的訓練集。事實上,小圖像數據集的缺點已是衆所周知(例如,Pinto[21]),但直到最近纔可以收集到數百萬的標記數據集。新的大型數據集包括LabelMe [23],其中包含數十萬個完全分割的圖像,以及ImageNet [6],其中包含超過15,000萬個超過22,000個類別的高分辨率圖像。
要從數百萬圖像中學習數千個類別,我們需要一個具有強大學習能力的模型。然而,物體識別任務的巨大複雜性意味着即使是像ImageNet這樣大的數據集也不能完美地解決這個問題,所以我們的模型也需要使用很多先驗知識來彌補我們數據集不足的問題。卷積神經網絡(CNN)就構成了一類這樣的模型[16,11,13,18,15,22,26]。它們的容量可以通過改變它們的深度和寬度來控制,並且它們也對圖像的性質(即統計量的定態假設以及像素局部依賴性假設)做出準確而且全面的假設。因此,與具有相同大小的層的標準前饋神經網絡相比,CNN具有更少的連接和參數,因此它們更容易訓練,而其理論最優性能可能稍微弱一些。
儘管CNN具有很好的質量,並且儘管其局部結構的效率相對較高,但將它們大規模應用於高分辨率圖像時仍然顯得非常昂貴。幸運的是,當前的GPU可以用於高度優化的二維卷積,能夠加速許多大型CNN的訓練,並且最近的數據集(如ImageNet)包含足夠多的標記樣本來訓練此類模型,而不會出現嚴重的過度擬合。
本文的具體貢獻如下:我們在ILSVRC-2010和ILSVRC-2012比賽中使用的ImageNet子集上訓練了迄今爲止最大的卷積神經網絡之一[2],並在這些數據集上取得了迄今爲止最好的結果。我們編寫了一個高度優化的2D卷積的GPU實現以及其他訓練卷積神經網絡的固有操作,並將其公開。我們的網絡包含許多新的和不同尋常的功能,這些功能可以提高網絡的性能並縮短訓練時間,詳情請參閱第3節。我們的網絡規模較大,即使有120萬個帶標籤的訓練樣本,仍然存在過擬合的問題,所以我們採用了幾個有效的技巧來阻止過擬合,在第4節中有詳細的描述。我們最終的網絡包含五個卷積層和三個全連接層,並且這個深度似乎很重要:我們發現去除任何卷積層(每個卷積層只包含不超過整個模型參數的1%的參數)都會使網絡的性能變差。
最後,網絡的規模主要受限於目前GPU上可用的內存量以及我們可接受的訓練時間。我們的網絡需要在兩塊GTX 580 3GB GPU上花費五到六天的時間來訓練。我們所有的實驗都表明,通過等待更快的GPU和更大的數據集出現,我們的結果可以進一步完善。

2、數據集

ImageNet是一個擁有超過1500萬個已標記高分辨率圖像的數據集,大概有22,000個類別。圖像都是從網上收集,並使用Amazon-Mechanical Turk羣智工具人工標記。從2010年起,作爲Pascal視覺對象挑戰賽的一部分,這是每年舉辦一次的名爲ImageNet大型視覺識別挑戰賽(ILSVRC)的比賽。 ILSVRC使用的是ImageNet的一個子集,每1000個類別中大約有1000個圖像。總共有大約120萬張訓練圖像,50,000張驗證圖像和150,000張測試圖像。
ILSVRC-2010是ILSVRC中的唯一可以使用測試集標籤的版本,因此這也正是我們進行大部分實驗的版本。由於我們也在ILSVRC-2012比賽中引入了我們的模型,因此在第6部分中,我們也會給出此版本數據集的結果,儘管這個版本的測試集標籤不可用。在ImageNet上,習慣上使用兩種錯誤率:top-1和top-5,其中top-5錯誤率是正確標籤不在被模型認爲最可能的五個標籤之中的測試圖像的百分率。
ImageNet由可變分辨率的圖像組成,而我們的系統需要固定的輸入尺寸。因此,我們將圖像下采樣到256×256的固定分辨率。給定一個矩形圖像,我們首先重新縮放圖像,使得短邊長度爲256,然後從結果中裁剪出中心的256×256的圖片。除了將每個像素中減去訓練集的像素均值之外,我們沒有以任何其他方式對圖像進行預處理。所以我們在像素的(中心)原始RGB值上訓練了我們的網絡。

3、結構

圖2概括了我們所提出網絡的結構。它包含八個學習層——五個卷積層和三個全連接層。下面,我們將描述一些所提出網絡框架中新穎或不尋常的地方。 3.1-3.4節按照我們對它們重要性的估計進行排序,其中最重要的是第一個。

3.1、ReLU非線性單元

對一個神經元模型的輸出的常規套路是,給他接上一個激活函數:f(x)=tanh(x) 或者f(x)=(1+ex)1 。就梯度下降法的訓練時間而言,這些飽和非線性函數比非飽和非線性函數如f(x)=max(0,x) 慢得多。根據Nair和Hinton的說法[20],我們將這種非線性單元稱爲——修正非線性單元(Rectified Linear Units (ReLUs))。使用ReLUs做爲激活函數的卷積神經網絡比起使用tanh單元作爲激活函數的訓練起來快了好幾倍。這個結果從圖1中可以看出來,該圖展示了對於一個特定的四層CNN,CIFAR-10數據集訓練中的誤差率達到25%所需要的迭代次數。從這張圖的結果可以看出,如果我們使用傳統的飽和神經元模型來訓練CNN,那麼我們將無法爲這項工作訓練如此大型的神經網絡。
png
我們並不是第一個考慮在CNN中替換掉傳統神經元模型的。例如,Jarrett等人[11]聲稱,非線性函數f(x)=|tanh(x)| 在他們的對比度歸一化問題上,再接上局部均值池化單元,在Caltech-101數據集上表現的非常好。然而,在這個數據集中,主要擔心的還是防止過擬合,所以他們觀察到的效果與我們在使用ReLU時觀察到的訓練集的加速能力還是不一樣。加快訓練速度對大型數據集上訓練的大型模型的性能有很大的影響。

3.2、在多個GPU上訓練

單個GTX 580 GPU只有3GB內存,這限制了可以在其上訓練的網絡的最大尺寸。事實證明,120萬個訓練樣本足以訓練那些因規模太大而不適合使用一個GPU訓練的網絡。因此,我們將網絡分佈在兩個GPU上。目前的GPU很適合於跨GPU並行化操作,因爲它們能夠直接讀寫對方的內存,而無需通過主機內存。我們採用的並行化方案基本上將半個內核(或神經元)放在各個GPU上,另外還有一個技巧:GPU只在某些層間進行通信。這意味着,例如,第3層的內核從第2層的所有內核映射(kernel maps)中獲取輸入。然而,第4層中的內核又僅從位於同一GPU上的第3層中的那些內核映射獲取輸入。選擇連接模式對於交叉驗證是一個不小的問題,但這使得我們能夠精確調整通信量,直到它的計算量的達到可接受的程度。
由此產生的架構有點類似於Cire¸san等人使用的“柱狀”CNN[5],除了我們的每列不是獨立的之外(見圖2)。與一個GPU上訓練的每個卷積層只有一半的內核數量的網絡相比,該方案分別將我們的top-1和top-5錯誤率分別降低了1.7%和1.2%。雙GPU網絡的訓練時間比單GPU網絡更少。

3.3、局部響應歸一化(Local Response Normalization)

ReLU具有理想的屬性,它們不需要對輸入進行歸一化來防止它們飽和。如果至少有一些訓練實例爲ReLU產生了正的輸入,那麼這個神經元就會學習。然而,我們還是發現下面的這種歸一化方法有助於泛化。設ax,yi 表示第i 個內核計算(x,y) 位置的ReLU非線性單元的輸出,而響應歸一化(Local Response Normalization)的輸出值定義爲bx,yi

bx,yi=ax,yi(k+αj=max(0,in/2)min(N1,i+n/2)(ax,yj)2)β

其中,求和部分公式中的n 表示同一個位置下與該位置相鄰的內核映射的數量,而N 表示這一層所有的內核數(即通道數)。內核映射的順序當然是任意的,並且在訓練之前就已經定好了。這種響應歸一化實現了一種模仿真實神經元的橫向抑制,從而在使用不同內核計算的神經元輸出之間產生較大的競爭。常數knαβ 都是超參數(hyper-parameters),它們的值都由驗證集決定。我們取k=2n=5α=104β=0.75 。我們在某些層的應用ReLU後再使用這種歸一化方法(參見第3.5節)。
這個方案與Jarrett等人[11]的局部對比歸一化方案有些相似之處,但我們的被更準確地稱爲“亮度歸一化”,因爲我們沒有減去均值。響應歸一化將我們的top-1和top-5的錯誤率分別降低了1.4%和1.2%。我們還驗證了這種方案在CIFAR-10數據集上的有效性:沒有進行歸一化的四層CNN實現了13%的測試錯誤率,而進行了歸一化的則爲11%。

3.4、重疊池化

CNN中的池化層彙集了相同內核映射中相鄰神經元組的輸出。在傳統方法中,相鄰池化單元之間互不重疊(例如[17,11,4])。更準確地說,一個池化層可以被認爲是由一些間隔爲s個像素的池化單元組成的網格,每個都表示了一個以池化單元的位置爲中心的大小爲z×z的鄰域。如果我們令s = z,我們就可以得到CNN中常用的傳統的局部池化。如果我們令s

3.5、整體結構

現在我們已經準備好描述CNN的整體架構了。如圖2所示,這個網絡包含了八層權重;前五個是卷積層,其餘三個爲全連接層。最後的全連接層的輸出被送到1000維的softmax函數,其產生1000個類的預測。我們的網絡最大化多項邏輯迴歸目標,這相當於在預測的分佈下最大化訓練樣本中正確標籤對數概率的平均值。
第二,第四和第五個卷積層的內核僅與上一層存放在同一GPU上的內核映射相連(見圖2)。第三個卷積層的內核連接到第二層中的所有內核映射。全連接層中的神經元連接到前一層中的所有神經元。響應歸一化層緊接着第一個和第二個卷積層。 在3.4節中介紹的最大池化層,後面連接響應歸一化層以及第五個卷積層。將ReLU應用於每個卷積層和全連接層的輸出。
png
第一個卷積層的輸入爲224×224×3的圖像,對其使用96個大小爲11×11×3、步長爲4(步長表示內核映射中相鄰神經元感受野中心之間的距離)的內核來處理輸入圖像。第二個卷積層將第一個卷積層的輸出(響應歸一化以及池化)作爲輸入,並使用256個內核處理圖像,每個內核大小爲5×5×48。第三個、第四個和第五個卷積層彼此連接而中間沒有任何池化或歸一化層。第三個卷積層有384個內核,每個的大小爲3×3×256,其輸入爲第二個卷積層的輸出。第四個卷積層有384個內核,每個內核大小爲3×3×192。第五個卷積層有256個內核,每個內核大小爲3×3×192。全連接層各有4096個神經元。

4、減少過擬合

我們的神經網絡架構擁有6000萬個參數。儘管ILSVRC的1000個類別使得每個訓練樣本從圖像到標籤的映射被限制在了10 bit之內,但這不足以保證訓練這麼多參數而不出現過擬合。下面,我們將介紹對付過度擬合的兩個方法。

4.1、數據增強(Data Augmentation)

減小過擬合的最簡單且最常用的方法就是,使用標籤保留轉換(label-preserving transformations,例如[25,4,5]),人爲地放大數據集。我們採用兩種不同形式的數據增強方法,它們都允許通過很少的計算就能從原始圖像中生成轉換圖像,所以轉換後的圖像不需要存儲在硬盤上。在我們實現過程中,轉換後的圖像是使用CPU上的Python代碼生成的,在生成這些轉換圖像的同時,GPU還在訓練上一批圖像數據。所以這些數據增強方案實際上是很高效的。
數據增強的第一種形式包括平移圖像和水平映射。我們通過從256×256圖像中隨機提取224×224的圖像塊(及其水平映射)並在這些提取的圖像塊上訓練我們的網絡來做到這一點。這使我們的訓練集的規模增加了2048倍,儘管由此產生的訓練樣本當然還是高度相互依賴的。如果沒有這個方案,我們的網絡就可能會遭受大量的的過擬合,可能會迫使我們不得不使用更小的網絡。在測試時,網絡通過提取5個224×224的圖像塊(四個角塊和中心塊)以及它們的水平映射(因此總共包括10個塊)來進行預測,並求網絡的softmax層的上的十個預測結果的均值。
第二種形式的數據增強包括改變訓練圖像中RGB通道的灰度。具體而言,我們在整個ImageNet訓練集的圖像的RGB像素值上使用PCA。對於每個訓練圖像,我們添加多個通過PCA找到的主成分,大小與相應的特徵值成比例,乘以一個隨機值,該隨機值屬於均值爲0、標準差爲0.1的高斯分佈。因此,對於每個圖像的RGB像素有:Ixy=[IxyRIxyGIxyB]T ,我們加入如下的值:

[p1p2p3][α1λ1α2λ2α3λ3]T

其中,piλi 分別是3x3的RGB協方差矩陣的第i 個特徵向量和第i 個的特徵值,而αi 是前面所說的隨機值。對於一張特定圖像中的所有像素,每個αi 只會被抽取一次,知道這張圖片再次用於訓練時,纔會重新提取隨機變量。這個方案近似地捕捉原始圖像的一些重要屬性,對象的身份不受光照的強度和顏色變化影響。這個方案將top-1錯誤率降低了1%以上。

4.2、Dropout

結合許多不同模型的預測結果是減少測試錯誤率的一種非常成功的方法[1,3],但對於已經花費數天時間訓練的大型神經網絡來說,它似乎成本太高了。然而,有一種非常有效的模型組合方法,在訓練期間,只需要消耗1/2的參數。這個新發現的技術叫做“Dropout”[10],它會以50%的概率將隱含層的神經元輸出置爲0。以這種方法被置0的神經元不參與網絡的前饋和反向傳播。因此,每次給網絡提供了輸入後,神經網絡都會採用一個不同的結構,但是這些結構都共享權重。這種技術減少了神經元的複雜適應性,因爲神經元無法依賴於其他特定的神經元而存在。因此,它被迫學習更強大更魯棒的功能,使得這些神經元可以與其他神經元的許多不同的隨機子集結合使用。在測試時,我們試着使用了所有的神經元,並將它們的輸出乘以0.5。這與採用大量dropout的網絡產生的預測結果分佈的幾何均值近似。
我們在圖2中的前兩個全連接層上使用了dropout。沒有dropout,我們的網絡會出現嚴重的過擬合。Dropout大概會使達到收斂的迭代次數翻倍。

5、訓練細節

我們使用隨機梯度下降法來訓練我們的模型,每個batch有128個樣本,動量(momentum)爲0.9,權重衰減(weight decay)爲0.0005。我們發現這種較小的權重衰減對於模型的訓練很重要。換句話說,權重衰減在這裏不僅僅是一個正則化方法:它減少了模型的訓練誤差。權重ω的更新法則是:

vi+1:=0.9vi0.0005ϵωiϵLω|ωiDiωi+1:=ωi+vi+1

其中,i 表示當前的迭代次數,v 表示動量(momentum),ε 表示學習率, Lω|ωiDi 是第i 批次的目標函數關於w 的導數(wi 的偏導數)Di 的平均值。
我們使用標準差爲0.01、均值爲0的高斯分佈來初始化各層的權重。我們使用常數1來初始化了網絡中的第二個、第四個和第五個卷積層以及全連接層中的隱含層中的所有偏置參數。這種初始化權重的方法通過向ReLU提供了正的輸入,來加速前期的訓練。我們使用常數0來初始化剩餘層中的偏置參數。
我們對所有層都使用相同的學習率,在訓練過程中又手動進行了調整。我們遵循的啓發式方法是:以當前的學習速率訓練,驗證集上的錯誤率停止降低時,將學習速率除以10.學習率初始時設爲0.01,並且在終止前減少3次。我們使用120萬張圖像的訓練集對網絡進行了大約90次迭代的訓練,這在兩塊NVIDIA GTX 580 3GB GPU上花費了大約5到6天的時間。

6、結果

我們在ILSVRC-2010上取得的結果如表1所示。我們的網絡的top-1和top-5測試集錯誤率分別爲37.5%和17.0%。在ILSVRC-2010比賽期間取得的最佳成績是47.1%和28.2%,其方法是對六種不同的稀疏編碼模型所產生的預測結果求平均[2]。此後公佈的最佳結果爲45.7%、25.7%,其方法是對兩種經過密集採樣的特徵[24]計算出來的Fisher向量(FV)訓練的兩個分類器取平均值。
我們的網絡實現了37.5%和17.0%的前1和前5個測試集錯誤率5。在ILSVRC-2010比賽期間取得的最佳成績是47.1%和28.2%,其中一種方法是對六種針對不同特徵進行訓練的稀疏編碼模型所產生的預測進行平均[2],此後最佳公佈結果爲45.7%, 25.7%,其中一種方法是:對兩個在不同取樣密度的Fisher向量上訓練的分類器取平均。
png
我們還在ILSVRC-2012競賽中使用了我們的模型,並在表2中給出了我們的結果。由於ILSVRC-2012測試集標籤未公開,因此我們無法給出我們測試過的所有模型在測試集上的錯誤率。在本節的其餘部分中,我們將驗證集和測試集的錯誤率互換,因爲根據我們的經驗,它們之間的差值不超過0.1%(見表2)。本文描述的CNN的top-5錯誤率達到了18.2%。對五個相似CNN的預測結果計算均值,得到的錯誤率爲16.4%。單獨一個CNN,在最後一個池化層之後,額外添加第六個卷積層,對整個ImageNet Fall 2011 release(15M images, 22K categories)進行分類,然後在ILSVRC-2012上“微調”(fine-tuning)網絡,得到的錯誤率爲16.6%。對整個ImageNet Fall 2011版本的數據集下預訓練的兩個CNN,求他們輸出的預測值與前面提到的5個不同的CNN輸出的預測值的均值,得到的錯誤率爲15.3%。比賽的第二名達到了26.2%的top-5錯誤率,他們的方法是:對幾個在特徵取樣密度不同的Fisher向量上訓練的分類器的預測結果取平均的方法[7]。
png
最後,我們還在ImageNet Fall 2009版本的數據集上提交了錯誤率,總共有10,184個類別和890萬張圖像。在這個數據集中,我們遵循文獻中的使用一半圖像用於訓練,一半圖像用於測試的慣例。由於沒有建立測試集,所以我們的拆分方法有必要與先前作者使用的拆分方法不同,但這並不會對結果產生顯著的影響。我們在這個數據集上的top-1和top-5錯誤率分別是67.4%和40.9%,是通過前面描述的網絡獲得的,但是在最後的池化層上還有額外的第6個卷積層。該數據集此前公佈的最佳結果是78.1%和60.9%[19]。

6.1、定性評估(Qualitative Evaluations)

png
圖3顯示了由網絡的兩個數據連接層學習得到的卷積內核。該網絡已經學習到許多頻率和方向提取的內核,以及各種色塊。請注意兩個GPU所展現的不同特性,這也是3.5節中介紹的限制互連的結果。GPU1上的內核在很大程度上與顏色無關,然而GPU2上的內核在很大程度上都於顏色有關。這種特異性在每次迭代期間都會發生,並且獨立於任何特定的隨機權重初始化過程(以GPU的重新編號爲模)。
png
在圖4的左邊,我們通過計算8張測試圖像的top-5預測來定性評估網絡的訓練結果。請注意,即使是偏離中心的物體,如左上角的蟎蟲,也可以被網絡識別出來。大多數top-5的標籤都顯得比較合理。例如,只有其他類型的貓才被認爲是豹子的可能標籤。在某些情況下(柵欄、櫻桃),照片的關注點存在模糊性,不知道到底該關注哪個。
另一個研究可視化的網絡的方法是,考慮由最後一個4096維隱含層中的圖像的特徵的激活函數輸出值。如果兩幅圖像產生有的歐氏距離,我們可以認爲高層次的神經網絡認爲它們是相似的。圖4顯示了測試集中的5個圖像和來襲訓練集的6個圖像,這些圖像根據這種度量方法來比較它們中的哪一個與其最相似。請注意,在像素層次上,待檢測的訓練圖像通常不會與第一列中的查詢圖像有較小的L2距離。例如,檢索到的狗和大象有各種不同的姿勢。我們在補充材料中提供了更多測試圖像的結果。
通過使用歐式距離來計算兩個4096維實值向量的相似性,效率不高,但是通過訓練自編碼器可以將這些向量壓縮爲較短的二進制碼,能夠使其更高效。與應用自編碼器到原始像素[14]相比,這應該是更好的圖像檢索方法。它不使用圖像標籤,因此更秦翔宇檢索具有相似圖案邊緣的圖像,不管它們的圖像語義是否相似。

7、討論

我們的研究結果表明,一個大的深層卷積神經網絡能夠在純粹使用監督學習的情況下,在極具挑戰性的數據集上實現破紀錄的結果。值得注意的是,如果移除任何一個卷積層,網絡的性能就會下降。例如,刪除任何中間層的結果會導致網絡性能的top-1錯誤率下降2%。因此網絡的深度對於實現我們的結果真的很重要。
爲了簡化我們的實驗,我們沒有使用任何無監督的預訓練方法,儘管這樣可能會有所幫助,特別是如果我們獲得了足夠的計算能力來顯著地增加網絡的大小而不會相應地增加已標記數據的數量。到目前爲止,我們的結果已經獲得了足夠的進步,因爲我們已經使網絡更大,並且訓練了更長時間。但我們仍然有很大的空間去優化網絡,使之能夠像人類的視覺系統一樣感知。最後,我們希望對視頻序列使用非常大的深度卷積神經網路,其中時間結構提供了非常有用的信息,這些信息往往在靜態圖像中丟失了,或者說不太明顯。

參考文獻

[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter,9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire¸san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire¸san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL ttp://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579, 2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE, 2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman, W. Denk, and H.S. Seung. Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Computation, 22(2):511–538, 2010.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章