GoogLeNet論文翻譯:《Going deeper with convolutions》

寫在前面:大家好!我是【AI 菌】,一枚愛彈吉他的程序員。我熱愛AI、熱愛分享、熱愛開源! 這博客是我對學習的一點總結與記錄。如果您也對 深度學習、機器視覺、算法、C++ 感興趣,可以關注我的動態,我們一起學習,一起進步~
我的博客地址爲:【AI 菌】的博客


前言:

爲了讓讀者有更好的閱讀體驗,我對翻譯進行了如下改進:

  • 論文重點內容用黑體加粗表示
  • 每一章節段與段之間用空白行隔開
  • 對於一些專業詞彙保留原譯,不予翻譯

摘要

我們提出了一種深層卷積神經網絡結構,命名爲Inception,它是爲了參加2014年ImageNet大規模視覺識別挑戰賽(ILSVRC14)而設計出的一種一流的分類和檢測器。該網絡結構的主要特點是網絡內部計算資源的利用率得到提高。這是通過精心設計的網絡結構實現的,該設計允許在保持計算資源預算不變的情況下增加網絡的深度和寬度。爲了優化質量,該網絡結構決策基於Hebbian原則多尺度處理的直覺。在ILSVRC14挑戰賽中,我們使用了的一種特定化網絡GoogLeNet,它是一個22層的深度網絡,其質量在分類和檢測的範圍內進行評估。

1. 介紹

在過去的三年中,主要是由於深度學習的發展,更具體來說是卷積網絡,圖像識別和目標檢測的質量一直在飛速發展。 一個令人鼓舞的消息是,大部分進展不僅在於功能更強大的硬件更大的數據集更大的模型的結果,而且主要是新的思想,算法和改進的網絡體系結構的結果。例如,ILSVRC 2014競賽的前幾名除了使用了用於檢測目的的分類數據集外,沒有使用新的數據源。 實際上,我們向ILSVRC 2014提交的GoogLeNet所使用的參數比兩年前Krizhevsky等人的網絡結構AlexNet 少了12倍,但準確性卻更高。 在目標檢測中最大的收穫不是來自單獨使用深度網絡或更大的模型,而是來自深度結構和經典計算機視覺的協同作用,例如Girshick等人的R-CNN算法。

另一個值得注意的因素是,隨着移動和嵌入式計算的不斷髮展,我們算法的效率,尤其是其功能和內存使用,變得越來越重要。 值得注意的是,本文設計的深層體系結構就考慮到這個因素,而不是單純地爲了將測試精度固定下來。 對於大多數實驗,這些模型的設計目的是在推理時保持15億次乘法運算的計算預算,這樣它們就不會單純地爲了滿足學術上的好奇心,而是可以在現實世界中使用,甚至在大型數據集上,而且價格合理

在本文中,我們將重點研究名爲Inception的高效的用於計算機視覺的深度神經網絡結構,該結構的名稱源自Lin等提出的論文《Network in Network》,以及著名的“ we need to go deeper”網絡梗。在我們的方法中,“深層”一詞有兩種不同的含義:首先,在某種意義上,我們以“Inception模塊”的形式引入了新的組織層次,在更直接的意義上是網絡深度的增加。通常,人們可以將Inception模型視爲,同時從Arora等人的理論工作中獲得啓發和指導的邏輯高潮。 該架構的優勢已通過ILSVRC 2014分類和檢測挑戰進行了實驗驗證,在此方面其性能明顯優於當前的一流水平。

2. 相關工作

從LeNet-5開始,卷積神經網絡(CNN)通常具有一種標準結構——堆疊的卷積層(可選地,隨後進行對比度歸一化和maxpooling),然後是一個或多個全連接層。 這種基本設計的變體在圖像分類文獻中很普遍,並且迄今爲止在MNIST,CIFAR以及ImageNet分類挑戰中均取得了最佳結果。 對於較大的數據集,例如ImageNet,最近的趨勢是增加層數和層的大小,同時使用Dropout解決過度擬合的問題。

儘管擔心最大池化層會導致丟失準確的空間信息,但與[9]相同的卷積網絡體系結構也已成功用於定位[9、14],目標檢測[6、14、18、5]和人類姿勢估計[19]。 受靈長類動物皮層神經科學模型啓發,Serreetal 使用了一系列不同大小的Gabor濾波器,以處理多個尺度,類似於Inception模型。 但是,與文獻[15]的固定2層深度模型相反,學習了Inception模型中的所有濾波器。 此外,在Inception層中重複了很多次,在GoogLeNet模型的情況下,導致了22層深度模型。

《Network in Network》是Lin等人提出的一種方法,爲了增加神經網絡的表示能力。 當應用於卷積層時,該方法可以看作是附加的1×1卷積層,通常是經過ReLU激活函數。 這使它可以輕鬆集成到當前的CNN管道中。 我們在結構中大量使用了這種方法。 但是,在我們的環境中,1×1卷積具有雙重目的:最關鍵的是,它們主要用作降維模塊以消除計算瓶頸,否則將限制我們網絡的規模。 這種方法不僅增加了網絡的深度,而且還增加了網絡的寬度,而沒有明顯的性能損失。

當前用於目標檢測的領先方法是Girshick等人提出的具有候選區域的卷積神經網絡(R-CNN)。R-CNN將整體檢測問題分解爲兩個子問題:首先以與類別無關的方式將低級提示(例如顏色和超像素一致性)用於潛在的對象建議,然後使用CNN分類器在那些位置識別對象類別。 這種兩階段方法利用了具有低級提示的邊界框分割的準確性以及最新型CNN的強大分類能力。 我們在檢測提交中採用了類似的流程,但是在兩個階段都進行了改進,例如針對更高對象邊界框召回的多框預測,以及對邊界框建議進行更好分類的集成方法。

3. 動機和高層級的考慮

改善深度神經網絡性能的最直接方法是增加其大小。 這包括增加網絡的深度——層數、和網絡的寬度——每層的單元數。特別是對於有大量可用標籤的訓練數據的數據集,這是訓練高質量模型的一種簡單而安全的方法。 然而,這種簡單的解決方案具有兩個主要缺點

較大的尺寸通常意味着大量的參數,這使得擴大的網絡更容易過度擬合,尤其是在訓練集中標記的示例數量有限的情況下。這可能會成爲主要瓶頸,因爲創建高質量的訓練集可能很棘手和昂貴,尤其是如果需要專家級評估人員來區分細粒度的視覺類別,例如ImageNet(甚至在1000級ILSVRC子集中),如圖1所示。
在這裏插入圖片描述
              圖1:ILSVRC 2014分類挑戰的1000個類別中的兩個不同類別。

均勻地增加網絡大小的另一個缺點計算資源的使用急劇增加。 例如,在深度視覺網絡中,如果將兩個卷積層鏈接在一起,則其濾波器數量的任何均勻增加都會導致計算量的平方增加。 如果增加的容量使用效率不高(例如,如果大多數權重最終都接近於零),則會浪費大量計算量。 由於實際上計算預算始終是有限的,因此即使主要目的是提高結果的質量,也要有效分配計算資源,而不是隨意增加大小。

最終解決這兩個問題的根本方法是從全連接層的結構過渡到稀疏的連接結構,甚至在卷積內部也是如此。 除了模仿生物系統之外,由於Arora等人的開創性工作,這還將具有更牢固的理論基礎的優勢。他們的主要結果表明,如果數據集的概率分佈可以由大型的,非常稀疏的深度神經網絡表示,則可以通過分析最後一層的激活的相關統計量,逐層構建最佳網絡拓撲。 聚集具有高度相關輸出的神經元。 儘管嚴格的數學證明要求非常嚴格的條件,但該陳述與衆所周知的Hebbian原理(如果兩個神經元同時被激活,則它們之間的連接加強)產生共鳴這一事實表明,即使在不太嚴格的條件下,實際上也可以應用基本思想。

不利的一面是,今天的計算基礎架構在對非均勻稀疏數據結構進行數值計算時效率很低。 即使算術運算的數量減少了100倍,查找和緩存未命中的開銷仍然占主導地位,以至於切換到稀疏矩陣都不會奏效。 通過使用穩定改進的,經過高度調整的數值庫,利用底層CPU或GPU硬件的微小細節,可以實現極快的密集矩陣乘法,從而進一步拉大了差距[16,9]。 而且,非均勻的稀疏模型需要更復雜的工程和計算基礎結構。 當前大多數面向視覺的機器學習系統僅通過使用卷積就在空間域中利用稀疏性。 但是,卷積被實現爲到較早層中密集連接小塊的集合。 自從[11]以來,ConvNets就一直在特徵維度上使用隨機和稀疏的連接表,以便打破對稱性並改善學習效果,[9]則將趨勢改回全連接,以便更好地優化並行計算。 結構的均勻性和大量的過濾器以及更大的批處理大小得益於利用有效的密集計算。

這就提出了一個問題,即下一步是否有希望:一種架構,如理論所建議的那樣,利用了額外的稀疏性,即使在濾波器級別,也是如此,但是通過利用密集矩陣的計算來利用我們當前的硬件。 關於稀疏矩陣計算的大量文獻(例如[3])表明,將稀疏矩陣聚類爲相對密集的子矩陣往往會爲稀疏矩陣乘法提供最新的實用性能。 認爲不久的將來將採用類似的方法來自動構建非統一的深度學習架構似乎並不爲過。

Inception結構最初是作爲第一作者的案例研究來評估複雜網絡拓撲構造算法的假設提出的,該算法試圖逼近[2]所暗示的視覺網絡的稀疏結構,並通過密集,易於獲得的方法覆蓋了假設的結果。 儘管這是一個高度取巧的工作,但僅在對拓撲結構的確切選擇進行兩次迭代之後,我們已經可以基於[12]看到相對於參考結構的適度收益。 在進一步調整學習率,超參數和改進的訓練方法之後,我們確定了所得的Inception體系結構在定位和目標檢測(作爲[6]和[5]的基礎網絡)中特別有用。 有趣的是,儘管大多數原始結構選擇都受到了質疑和測試,但事實證明它們至少是局部最優的。

我們仍然必須採取謹慎的態度:儘管提出的體系結構已經可以用於計算機視覺,但是其質量是否可以歸功於導致其構建的指導原則仍然值得懷疑。 確保將需要進行更徹底的分析和驗證:例如,如果基於下述原理的自動化工具能夠爲視覺網絡找到相似但更好的拓撲結構。 最有說服力的證明是,如果一個自動化系統創建的網絡拓撲結構能夠使用相同的算法,但在全局架構上卻大不相同,從而在其他域中獲得相似的收益。 至少,Inception結構的最初成功爲在此方向上未來的激動人心的工作產生了堅定的動力。

4. 結構細節

Inception體系結構的主要思想是基於找出卷積視覺網絡中最佳局部稀疏結構的近似值,並通過易於使用的密集組件進行覆蓋。 請注意,假設平移不變意味着我們的網絡將由卷積構建塊構建。 我們所需要的只是找到最佳的局部構造並在空間上進行重複。 Arora等人 [2]提出了一種逐層的結構,其中應該分析最後一層的相關統計量並將它們聚類爲具有高相關性的單元組。這些簇形成一個柔軟的單元,然後再連接到上一層中的單元。 我們假設來自較早層的每個單元對應於輸入圖像的某些區域,並且這些單元被分組爲卷積組。 在較低的層(靠近輸入層),相關單元將集中在局部區域。 這意味着,我們最終將有很多聚類集中在一個區域中,並且可以在下一層中用1×1卷積層覆蓋它們,如[12]中所建議。 但是,人們也可以期望在空間上更分散的羣集數量會更少,而較大的小塊上的卷積可以覆蓋這些簇,並且在越來越大的區域上,小塊的數量將會減少。 爲了避免小塊對齊問題,Inception體系結構的卷積核被限制爲1×1、3×3和5×5的大小,但是此決定更多地基於便利性而不是必要性。 這也意味着建議的體系結構是所有這些層的組合,它們的輸出濾波器組被連接到一個單獨的輸出矢量中,形成下一級的輸入。 另外,由於池化操作對於在當前最先進的卷積網絡中取得成功至關重要,因此建議在每個這樣的階段添加可選擇性的並行池化路徑,也應該具有不錯的額外效果(見圖2(a))。
在這裏插入圖片描述
                       圖2:Inception模塊

由於這些“ Inception模塊”彼此堆疊,因此它們的輸出相關性統計信息必然會發生變化:隨着更高層捕獲更高抽象的特徵,它們的空間集中度預計將降低

至少以這種簡單形式,上述模塊的一個大問題是,即使是數量有限的5×5卷積核,在具有大量卷積核的卷積層之上,代價也可能是昂貴的。 一旦將池化單元添加到混合中,此問題將變得更加明顯:它們的輸出卷積核通道數量等於上一階段的卷積核的數量。池化層的輸出與卷積層的輸出的合併將不可避免地導致端到端網絡參數的增加。即使此體系結構可能涵蓋了最佳的稀疏結構,它也會非常低效地進行處理,從而導致在幾個階段內出現計算爆炸

這導致了所提出的體系結構的第二個想法:在任何情況下如果計算需求會增加太多的地方明智地進行尺寸縮減和投影。這是基於嵌入的成功:即使是低維的嵌入也可能包含許多有關較大圖像小塊的信息。 但是,嵌入以密集,壓縮的形式表示信息,並且壓縮的信息很難建模。 我們想在大多數地方保持表示稀疏(如[2]的條件所要求的),並且僅在必須將它們彙總時才壓縮信號。 也就是說,在昂貴的3×3和5×5卷積之前,使用1×1卷積來計算縮減量。 除了用作減少量之外,它們還包括使用線性激活函數ReLU,使其具有雙重用途。 最終結果如圖2(b)所示。

通常,Inception網絡是由彼此堆疊的上述類型的模塊組成的網絡,偶爾具有最大步距爲2的最大池化層,以使網格的分辨率減半。 由於技術原因(訓練過程中的內存效率),似乎僅在較高的層開始使用Inception模塊,而以傳統的卷積方式保留較低的層似乎是有益的。這不是嚴格必要的,只是反映在我們當前一些基本效率低的使用過程中。

該體系結構的主要優點之一是,它可以顯著地增加每個階段的單元數量,而不會導致計算複雜性的急劇增加。 普遍使用降維可將最後一級的大量輸入的卷積核屏蔽到下一層,首先縮小其尺寸,然後再以較大的卷積核尺寸對它們進行卷積。 該設計的另一個實際有用的方面是,它與直覺一致,即視覺信息應按不同的尺度進行處理,然後進行彙總,以便下一階段可以同時從不同的尺度中提取特徵。

改進的計算資源使用可以增加每個階段的寬度以及階段數,而不會引起計算困難。 利用初始架構的另一種方法是創建稍遜一籌但在計算上更便宜的版本。 我們發現,所有隨附的旋鈕和操縱桿都可以實現計算資源的受控平衡,這可能導致網絡的運行速度比具有非Inception架構的類似性能的網絡快2-3倍,但是這時需要謹慎的手動設計 。

5. GooLeNet網絡

在ILSVRC14比賽中,我們選擇了GoogLeNet作爲我們的團隊名稱。 此名稱是對Yann LeCuns開拓性的LeNet 5網絡的致敬[10]。 我們還使用GoogLeNet來指代我們提交的競賽中使用的Inception體系結構的特定形式。 我們還使用了更深入,更廣泛的Inception網絡,其質量略遜一籌,但是將其添加到整體中似乎可以稍微改善結果。 我們省略了該網絡的詳細信息,因爲我們的實驗表明,確切的體系結構參數的影響相對較小。此處,出於演示目的,表1中描述了最成功的特定實例(名爲GoogLeNet)。 在我們的集成模型中,有7個模型中的6個使用了完全相同的拓撲(使用不同的採樣方法訓練)。
在這裏插入圖片描述
                  表1:GoogLeNet的化身:Inception 結構

所有卷積,包括Inception模塊內部的那些卷積,均使用ReLU激活函數。在我們的網絡中,感受野大小爲224×224,採用RGB顏色通道(均值相減)。 “#3×3縮小”和“#5×5縮小”表示在3×3和5×5卷積之前使用的縮小層中1×1卷積核的數量。 在pool proj列中內置最大池之後,可以看到投影層中1×1卷積核的數量。 所有這些縮小/投影層也都使用ReLU激活函數。

該網絡在設計時就考慮到了計算效率和實用性,因此可以在包括計算資源有限(尤其是內存佔用量少)的單個設備上運行訓練測試。 僅計算帶參數的層時,網絡深22層(如果我們也計算池化層,則網絡爲27層)。 用於網絡構建的層(獨立構建塊)的總數約爲100。但是,此數目取決於所使用的機器學習基礎結構系統。 在分類器之前使用平均池基於[12],儘管我們的實現不同之處在於我們使用了額外的線性層。 這使我們可以輕鬆地針對其他標籤集對我們的網絡進行調整和微調,但這主要是方便,我們並不期望它會產生重大影響。 已經發現,從全連接層轉移到平均池可將top-1精度提高約0.6%,但是即使在除去完全連接的層之後,仍必須使用壓降。

考慮到網絡的深度較大,以有效方式將梯度傳播回所有層的能力是一個問題。 一個有趣的見解是,相對較淺的網絡在此任務上的強大性能表明,網絡中間各層所產生的功能應非常有區別。 通過添加連接到這些中間層的輔助分類器,我們有望激勵在分類器的較低級進行區分,增加被傳播回的梯度信號,並提供其他正則化。 這些分類器採用較小的卷積網絡的形式,位於Inception(4a)和(4d)模塊的輸出之上。 在訓練過程中,它們的損失將以折扣權重添加到網絡的總損失中(輔助分類器的損失加權爲0.3)。 在測試過程中,這些輔助網絡將被丟棄。

包含輔助分類器在內的額外網絡的確切結構如下:

  • 平均池化層採用5×5的卷積核大小,步長爲3,導致(4a)的輸出爲4×4×512,(4d)的輸出爲4×4×528。
  • 具有128個1×1大小的卷積核,用於減小尺寸和校正線性激活。
  • 具有1024個節點的全連接層,並具有線性校正激活功能。
  • 一個具有70%的下降輸出比率的Dropout層。
  • 一個具有softmax損失的線性層作爲分類器(預測與主分類器相同的1000個分類,但在推理時將其刪除)。

生成的網絡的示意圖如圖3所示:

在這裏插入圖片描述
                      圖3:GoogLeNet完整網絡結構

6. 訓練方法

我們的網絡使用DistBelief [4]分佈式機器學習系統進行了訓練,該系統使用了少量模型和數據並行性。 儘管我們僅使用基於CPU的實現,但粗略估計表明,可以訓練GoogLeNet網絡在一週內使用很少的高端GPU進行融合,主要限制是內存使用率。 我們的訓練使用具有0.9動量的異步**隨機梯度下降[**17],固定的學習速率時間表(每8個週期將學習速率降低4%)。Polyak平均[13]用於創建推理時使用的最終模型。

在進入競賽的那幾個月中,我們的圖像採樣方法發生了實質性的變化,並且已經對融合的模型進行了其他選擇的訓練,有時還結合了更改後的超參數,例如Dropout概率和學習率,因此很難給出最有效的單一方法來訓練這些網絡。 使問題更加複雜的是,受[8]的啓發,一些模型主要針對較小的物體進行了訓練,而另一些則針對較大的相對物體進行了訓練。不過,經過競賽驗證可以有效工作的一種處方包括對各種尺寸的圖像小塊進行採樣,這些圖像小塊的大小均勻地分佈在圖像區域的8%和100%之間,並且長寬比在3/4和4/3之間隨機選擇。同樣,我們發現安德魯·霍華德[8]的光度學失真在某種程度上有助於防止過度擬合。 此外,我們開始使用隨機插值方法(雙線性,面積,最近鄰和三次,具有相等的概率)來調整相對較晚的大小,並與其他超參數更改結合使用,因此我們無法確切確定最終結果是否受到以下因素的正影響。

7. ILSVRC 2014分類挑戰設置和結果

ILSVRC 2014分類挑戰涉及將圖像分類爲Imagenet層次結構中1000個葉節點類別之一的任務。 大約有120萬張圖像用於訓練,50,000張圖像用於驗證,100,000張圖像用於測試。 每幅圖像都與一個真實標籤框與之對應,並且根據得分最高的分類器預測來衡量性能。
通常報告兩個數字:Top-1準確率,將真實類別與排名第一的預測類進行比較Top-5錯誤率,將真實類別與排名前5個的預測類進行比較:如果真實類別位於前五名預測類之中,則無論其排名如何,圖像被視爲正確分類 。 該挑戰賽使用Top-5錯誤率進行排名。

我們在參加挑戰過程中,沒有使用任何外部數據進行訓練。 除了本文前面提到的訓練方法外,我們在測試過程中採用了一組方法來獲得更高的性能,下面將詳細介紹。

  1. 我們獨立訓練了同一GoogLeNet模型的7個版本(包括一個更廣泛的版本),並對其進行了整體預測。 這些模型使用相同的初始化(即使是使用相同的初始權重,主要是由於疏忽所致)和學習率策略來訓練,並且它們的區別僅在於採樣方法和輸入圖像的隨機順序。
  2. 在測試過程中,我們採用了比K​​rizhevsky等人更積極的cropping方法。 [9]。 具體來說,我們將圖像調整爲4個比例,其中較短的尺寸(高度或寬度)分別爲256、288、320和352,取這些調整後圖像的左,中和右正方形(在縱向圖像的情況下, 頂部,中央和底部正方形)。然後,對於每個正方形,我們取4個角和中心224×224的crop,以及將正方形調整爲224×224的大小以及它們的鏡像版本。 這導致每個圖像4×3×6×2 = 144個crop。 安德魯·霍華德(Andrew Howard)[8]在上一年的錄取中使用了類似的方法,我們通過實證驗證,該方法的性能比擬議的方案稍差。我們注意到,在實際應用中,這種積極的cropping方法可能不是必需的,因爲在存在一定數量的crops之後,更多crops的收益就微不足道了(我們將在後面展示)。
  3. 將softmax概率在多個crops和所有單個分類器上取平均,以獲得最終預測。 在我們的實驗中,我們分析了驗證數據的替代方法,例如,對crop的最大池化和對分類器的平均化,但與簡單的平均化相比,它們的性能較差。
    在這裏插入圖片描述

在本文的剩餘部分,我們分析了最終提交的影響整體性能的多種因素。

我們在挑戰賽中的最終提交在驗證和測試數據上均獲得6.67%的Top-5錯誤率,在其他參與者中排名第一。 與2012年的SuperVision方法相比,相對減少了56.5%,與上一年的最佳方法(Clarifai)相比,減少了約40%,二者均使用外部數據來訓練分類器。 下表顯示了一些效果最好的方法的統計信息。

我們還通過更改下表中預測圖像時的模型數量和使用的crops數量,來分析和報告多種測試選擇的性能。 當我們使用一種模型時,我們在驗證數據上選擇了top-1錯誤率最低的模型。 所有數字均報告在驗證數據集上,以免過度擬合測試數據統計信息。

8. ILSVRC 2014檢測挑戰設置和結果

ILSVRC檢測任務是在200種可能的類別中的圖像中的對象周圍生成邊界框。 如果檢測到的對象與ground truth的類別匹配並且其邊界框重疊至少50%(使用Jaccard索引),則視爲正確。 無關檢測會被視爲誤報,並會受到處罰。 與分類任務相反,每個圖像可能包含許多對象或不包含任何對象,並且其比例可能從大到小變化。 使用平均精度(mAP)評判結果。
在這裏插入圖片描述
GoogLeNet用於檢測的方法與[6]中的R-CNN相似,但是使用Inception模型作爲區域分類器進行了擴充。 此外,通過將選擇性搜索[20]方法與多框[5]預測相結合,可以提高區域提議步驟,從而實現更高的對象邊界框召回率。 爲了減少誤報的數量,超像素尺寸增加了2倍。 這將來自選擇性搜索算法的建議減半。 我們增加了200個來自多框[5]的區域提案,結果總共佔[6]使用的提案的60%,而覆蓋範圍則從92%增加到93%。 減少提案數量並擴大覆蓋範圍的總體效果是,單個模型案例的平均平均精度提高了1%。 最後,在對每個區域進行分類時,我們使用6個ConvNet的集合,將結果的準確度從40%提高到43.9%。 請注意,與R-CNN相反,由於缺乏時間,我們沒有使用邊界框迴歸。

我們首先報告最高的檢測結果,並顯示自第一版檢測任務以來的進度。 與2013年的結果相比,準確性幾乎提高了一倍。 表現最好的團隊都使用卷積網絡。 我們在表4中報告了官方成績以及每個團隊的共同策略:使用外部數據,整體模型或上下文模型。 外部數據通常是用於預先訓練模型的ILSVRC12分類數據,該模型隨後將根據檢測數據進行完善。一些團隊還提到了本地化數據的使用。 由於大部分本地化任務邊界框未包含在檢測數據集中,因此可以使用此數據對通用邊界框迴歸器進行預訓練,方法與分類用於預訓練的方式相同。GoogLeNet條目未使用本地化數據進行預訓練。

在表5中,我們僅使用單個模型比較結果。 表現最好的模型是Deep Insight提供的,令人驚訝的是,只有3個模型的組合才提高了0.3點,而GoogLeNet的組合則獲得了明顯更強的結果。

9. 結論

我們的結果似乎提供了有力的證據,即通過隨時可用的密集構造塊來近似預期的最佳稀疏結構,是改善計算機視覺神經網絡的可行方法。 與較淺和較不寬泛的網絡相比,此方法的主要優點是在計算需求適度增加的情況下可顯着提高質量。 還要注意,儘管我們既未利用上下文也未執行邊界框迴歸,但我們的檢測工作具有競爭優勢,這一事實進一步證明了Inception體系結構的實力。 儘管可以預期,通過深度和寬度相近的昂貴得多的網絡可以達到類似的結果質量,但是我們的方法得出的確鑿證據表明,轉向稀疏結構通常是可行且有用的想法。 這表明在[2]的基礎上,未來的工作有希望以自動方式創建稀疏和更精細的結構。

10. 致謝

我想感謝Sanjeev Arora和Aditya Bhaskara對[2]的富有成果的討論。 我們還要感謝DistBelief [4]團隊的支持,尤其是對Rajat Monga,Jon Shlens,Alex Krizhevsky,Jeff Dean,Ilya Sutskever和Andrea Frome的支持。 我們還要感謝Tom Duerig和Ning Ye在光度畸變方面的幫助。 同樣,如果沒有Chuck Rosenberg和Hartwig Adam的支持,我們的工作將是不可能的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章