目標檢測 Faster-R-CNN論文筆記

Faster R-CNN:

Towards Real-Time ObjectDetection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun

(主要用於自己學習)
摘要: 最先進的目標檢測網絡依賴於區域建議算法來假設目標位置。例如SPPnet [1] 和Fast R-CNN [2] 等算法,雖然縮短了檢測網絡的運行時間,但是也暴露出區域建議方法的計算瓶頸。在本文的工作中,引入了一個區域建議網絡(RPN),它與檢測網絡共享全圖像卷積特性,從而實現幾乎不花費時間的區域建議。RPN是一個全卷積的網絡,可以同時預測的目標物體的邊界和目標物體得分。對RPN進行端到端的訓練,可以生成高質量的建議區域,然後使用 Fast R-CNN對建議區域進行檢測。通過共享卷積特徵,進一步將RPN和Fast R-CNN合併到一個網絡中,使用具有“注意力”機制的神經網絡,RPN組件告訴統一的網絡去看哪裏。使用VGG-16模型[3],檢測系統在GPU上的幀速率爲5fps(包括所有步驟),同時在P ASCAL VOC 2007、2012和MS COCO數據集上實現了最先進的目標檢測精度,每張圖像只有300個建議。

引言

    區域建議方法(如[4])和基於區域的卷積神經網絡(RCNNs)[5]的成功推動了目標檢測的進展。雖然基於區域的CNNs的計算成本與最初在[5]中開發時一樣高,但是文章[1]和[2]提出的共享卷積,它們的檢測時間已經大幅降低。最新的是Fast R-CNN[2],當忽略在區域建議上花費的時間時,它使用非常深的網絡[3]實現了接近實時的速率。現在,提取建議框是最先進的檢測系統的測試時間的瓶頸。
  區域建議方法通常依賴於簡單的特徵和經濟的推斷方案。選擇性搜索[4]是最流行的方法之一,它基於經過設計的底層特性貪婪地合併超像素。然而,與高效的檢測網絡[2]相比,選擇性搜索要慢一個數量級,在CPU實現中,每幅圖像要慢2秒。EdgeBoxes[6]方法是目前質量和速度之間最好的平衡,每幅圖0.2秒。然而,區域建議步驟仍然與檢測網絡消耗同樣多的運行時間。
  在這篇論文中,我們證明了使用深度卷積神經網絡的計算建議框是一個優雅而有效的解決方案,在這個方案的計算中,考慮到檢測網絡的計算幾乎是不耗時的。爲此,我們引入了新的區域建議網絡(RPN),它與最先進的對象檢測網絡[1]、[2]共享卷積層。通過在測試時共享卷積,計算建議的邊界成本很小(例如,每張圖像10毫秒)。
   我們觀察到,基於區域的檢測網絡(如Fast RCNN)使用的卷積特徵圖也可以用於生成區域建議。在這些卷積特性之上,我們通過添加一些額外的卷積層來構造一個RPN,這些層同時在一個規則網格上的每個位置上後退區域邊界和對象化得分。因此,RPN是一種全卷積網絡(FCN)[7],可以針對生成檢測建議的任務進行端到端訓練。
圖 1:
在這裏插入圖片描述
   區域網絡的設計是爲了有效地預測具有廣泛的比例尺和縱橫比的區域提案。與常用的文獻[8,9,1,2]的圖像的金字塔(圖1,a)或過濾器的金字塔(圖1,b)方法不同,我們引入了新的“錨”框,在多個尺度和縱橫比下作爲參考。我們的方案可以被認爲是一個迴歸參考的金字塔(圖1,c),它避免了枚舉多個尺度或縱橫比的圖像或過濾器。當使用單尺度圖像進行訓練和測試時,該模型表現良好,因此提高了運行速度。
  爲了將rpn與Fast R-CNN[2]對象檢測網絡相結合,我們提出了一種訓練方案,該方案在區域建議任務的微調和對象檢測的微調之間交替進行,同時保持建議固定不變。該方案收斂速度快,產生了一個具有卷積特徵的統一網絡,在兩個任務之間共享。

2相關工作

目標的建議。有大量關於對象建議方法的文獻。目標建議方法的綜合調查和比較可以在[19]、[20]、[21]中找到。廣泛使用的對象建議方法包括基於超像素分組的方法(如選擇性搜索[4]、CPMC[22]、MCG[23])和基於滑動窗口的方法(如windows[24]中的對象性、EdgeBoxes[6])。對象建議方法作爲獨立於檢測器的外部模塊(如選擇性搜索[4]對象檢測器、RCNN[5]、Fast R-CNN[2])。
用於目標檢測的深度網絡。R-CNN方法[5]訓練cnn端到端,將建議區域分類爲對象類別或背景。R-CNN主要作爲分類器,不預測對象界限(除了通過邊界盒迴歸進行細化)。它的準確性取決於區域建議模塊的性能(參見[20]中的比較)。一些論文已經提出了使用深度網絡來預測對象邊界框[25]、[9]、[26]、[27]的方法。在OverFeat方法[9]中,一個全連接層被訓練來預測一個單一對象的定位任務的盒子座標。然後將全連接層 旋轉到一個卷積層,用於檢測多個類特定的對象。多盒方法[26]、[27]從一個網絡生成區域建議,該網絡的最後一個全連接層同時預測多個類無關的盒,推廣了OverFeat的“單盒”方式。這些與類無關的框被用作R-CNN[5]的建議。與我們的全卷積方案相比,多盒建議網絡適用於單個圖像作物或多個大型圖像作物(例如,224×224)。MultiBox在提案網絡和檢測網絡之間不共享特徵。我們稍後將在上下文中用我們的方法更深入地討論OverFeat和MultiBox。在我們工作的同時,開發了用於學習分割建議的DeepMask方法[28]。
  卷積的共享計算[9]、[1]、[29]、[7]、[2]因其高效、準確的視覺識別而越來越受到人們的關注。超專長論文[9]從圖像金字塔中計算卷積特徵用於分類、定位和檢測。爲實現基於區域的目標檢測[1]、[30]和語義分割[29],在共享卷積特徵圖上開發了自適應大小池(SPP)[1]。快速R-CNN[2]支持端到端檢測器共享卷積特徵的訓練,顯示了令人信服的準確性和速度。
圖 2:
圖2

3 、Faster R-CNN

  我們的目標檢測系統,叫做Faster R-CNN,由兩個模塊組成。第一個模塊是提出區域的深度全卷積網絡,第二個模塊是使用提出區域的快速R-CNN檢測器[2]。整個系統是一個單一的、統一的對象檢測網絡(圖2)。使用最近流行的帶有“注意力”[31]機制的神經網絡,RPN模塊告訴快速R-CNN模塊去看哪裏。在3.1節中,我們介紹了區域方案網絡的設計和特性。在第3.2節中,我們開發了用於訓練具有共享特徵的兩個模塊的算法。

3.1區域建議網絡(RPN)

  區域建議網絡(RPN)以一幅任意大小的圖像作爲輸入和輸出一組目標矩形建議框,每個建議框都有一個對象評分。我們用一個全卷積網絡[7]對這個過程進行建模,我們將在本節中對此進行描述。因爲我們的最終目標是與一個快速的R-CNN對象檢測網絡[2]共享計算,我們假設兩個網絡共享一組公共的卷積層。在我們的實驗中,我們研究了具有5個可共享卷積層的Zeiler和Fergus模型32,以及具有13個可共享卷積層的Simonyan和Zisserman模型3爲了生成區域建議,我們在最後一個共享卷積層的卷積特徵圖輸出上滑動一個小網絡。這個小網絡將輸入卷積特徵圖的一個n×n空間窗口作爲輸入。每個滑動窗口被映射到一個低維的特性(ZF-256, VGG-512, ReLU[33]如下)。這個特性被輸入到兩個同級的完全連接的層—一個box-regression層(reg)和一個box-classification層(cls)。我們在本文中使用n = 3,注意到輸入圖像上的有效接受域很大(ZF和VGG分別爲171和228像素)。 圖3(左)顯示了這個迷你網絡的一個位置。請注意,由於微型網絡以滑動窗口的方式運行,因此完全連接的層在所有空間位置共享。這個架構很自然地通過一個n×n卷積層實現,然後是兩個同級的1×1卷積層(分別用於reg和cls)。
圖 3:
在這裏插入圖片描述

3.1.1 Anchors

  在每個滑動窗口的位置,我們同時預測多個建議框,每個位置表示爲k個。所以reg層 輸出4k(框的座標 4個值), 和cls層輸出2k(anhcor要分positive和negative),分數估計,爲每個proposal是目標或非目標的概率。k個建議是相對於k個參考框參數化的,我們稱之爲Anchors。錨點位於所討論的滑動窗口的中心,並與比例和縱橫比相關聯(圖3,左)。默認情況下,我們使用3個尺度和3個縱橫比,在每個滑動位置產生k = 9個錨點。對於大小爲W×H(通常爲2400)的卷積特徵圖,總共有WHk個錨點。
平移不變性
  我們方法的一個重要特性是它是平移不變的,無論是就錨點和相對於錨點計算提案的函數而言。如果平移圖像中的一個對象,則建議應該轉換,並且相同的功能應該能夠預測任一位置的建議。我們的方法5保證了這種平移不變屬性。作爲比較,多盒方法[27]使用k-均值來生成800個錨,這些錨不是平移不變的。因此,MultiBox不保證在平移對象時會生成相同的建議。
  平移不變特性還減小了模型大小。MultiBox有一個(4+1)×800維的全連接輸出層,而我們的方法在k=9個錨點的情況下有一個(4+2)×9維的卷積輸出層。因此,我們的輸出層有2.8×104個參數(VGG-16爲512×(4+2)×9),比MultiBox的輸出層少兩個數量級,後者有6.1×106個參數(MultiBox[27]中的GoogLeNet[34]爲1536×(4+1)×800)。如果考慮特徵投影層,我們建議的層的參數仍然比MultiBox6少一個數量級。我們預計我們的方法在小型數據集(如Pascal VOC)上過度擬合的風險較小。
Multi-Scale Anchors as Regression References
  我們的錨點設計提出了一種新穎的解決多尺度(和縱橫比)的方案。如圖1所示,有兩種流行的多尺度預測方法。第一種方式基於圖像/特徵金字塔,例如,在DPM[8]和基於CNN的方法[9]、[1]、[2]中。在多個尺度上調整圖像的大小,併爲每個尺度計算特徵圖(HOG[8]或深度卷積特徵[9]、[1]、[2])(圖1(A))。這種方法通常很有用,但很耗時。第二種方式是在特徵地圖上使用多種比例(和/或縱橫比)的滑動窗口。例如,在DPM[8]中,使用不同的過濾器大小(例如5×7和7×5)分別訓練不同長寬比的模型。如果使用這種方法來處理多個比例,可以將其視爲“過濾器的金字塔”(圖1(B))。第二種方式通常與第一種方式一起採用[8]。
  相比之下,我們的基於錨的方法是建立在錨的金字塔上的,這更具成本效率。我們的方法參照多種尺度和縱橫比的錨框對邊界框進行分類和迴歸。它僅依賴於單一比例的圖像和特徵地圖,並且使用單一大小的過濾器(特徵地圖上的滑動窗口)。我們通過實驗顯示了該方案在解決多尺度和多大小問題上的效果(表8)。
  由於這種基於錨的多尺度設計,我們可以簡單地使用在單尺度圖像上計算的卷積特徵,就像Fast R-CNN探測器[2]所做的那樣。多尺度錨的設計是共享特徵而不增加尋址尺度成本的關鍵組件。

3.1.2 Loss Function

  對於訓練RPN,我們爲每個錨點分配一個二進制類別標籤(作爲目標或不是目標)。我們給兩種錨分配一個正標籤:
(I)具有最高交集-並集(IOU)的一個或多個錨與地面事實框重疊,或(II) IOU重疊大於0.7的錨與任何地面事實框重疊。請注意,單個真值框可以將正標籤分配給多個錨點。通常第二個條件足以確定正樣本,但我們仍然採用第一個條件,因爲在某些極少數情況下,第二個條件可能找不到正樣本。對於所有的事實框,如果非正錨定的比率低於0.3,則我們爲其分配負標籤。其他對於訓練目標沒有貢獻。
  利用這些定義,我們在Fast R-CNN[2]中最小化了多任務損失後的一個目標函數。我們對圖像的損失函數定義爲:
在這裏插入圖片描述
  這裏,i是anchors index,並且PiP_i是錨i是目標物體的預測概率。PiP_i^*代表對應的GT predict概率(即當第i個anchor與GT間IoU>0.7,認爲是該anchor是positive,PiP_i^*=1;反之IoU<0.3時,認爲是該anchor是negative,PiP_i^* = 0;
tit_i 是表示預測邊界框的4個參數化座標的向量,tit_i^* 是與正錨點相關聯的GT框的向量。
分類損失 LclsL_{cls} 即rpn_cls_loss層計算的softmax loss,用於分類anchors爲positive與negative的網絡訓練。
迴歸損失Lreg(titi)=R(titi)L_{reg}(t_i,t_i^*) = R(t_i −t_i^*),即rpn_loss_bbox層計算的soomth L1 loss,用於bounding box regression網絡訓練。注意在該loss中乘了PiP_i^*,相當於只關心positive anchors的迴歸(其實在迴歸中也完全沒必要去關心negative)。其中R是soomth L1 loss。
在這裏插入圖片描述
在這裏插入圖片描述
  對於BBOX迴歸,我們採用以下4個座標的參數化[5]:
在這裏插入圖片描述
其中x、y、w和h表示中心座標及其寬度和高度。變量x、xax_axx^∗分別s是預測框、錨框和真實框(y、w、h也是如此)。這可以被認爲是從錨框到附近的真實框的BBox迴歸。
  然而,我們的方法實現BBox迴歸的方式不同於以前的基於ROI(感興趣區域)的方法[1]、[2]。在[1],[2]中,對從任意大小的感興趣區域集合的特徵執行BBox迴歸,並且迴歸權重由所有區域大小共享。在我們的公式中,用於迴歸的特徵在特徵地圖上具有相同的空間大小(3×3)。爲了適應不同的大小,學習了一組k個BBox迴歸變量。每個迴歸變量負責一個比例和一個縱橫比,k個迴歸變量不共享權重。因此,由於錨的設計,即使特徵具有固定的大小/比例,仍然可以預測各種大小的BBox。

3.1.3 Training RPNs

  RPN可以通過反向傳播和隨機梯度下降(SGD)進行端到端的訓練[35]。我們遵循文獻[2]中的“以圖像爲中心”的採樣策略來訓練這個網絡。每個小批次產生於包含許多正面和負面示例錨點的單個圖像。可以對所有錨的損失函數進行優化,但這將偏向負樣本,因爲它們占主導地位。取而代之的是,我們在一幅圖像中隨機抽樣256個錨點來計算小批量的損失函數,其中採樣的正負錨點的比例高達1:1。如果圖像中的正樣本少於128個,則用負樣本填充小批量。
  我們通過從標準差爲0.01的零均值高斯分佈中抽取權重來隨機初始化所有新層。所有其他層(即,共享卷積層)通過預先訓練用於ImageNet分類的模型來初始化[36],這是標準實踐[5]。我們調優ZF網的所有層,並使VGG網達到1或更高,以節省內存[2]。在Pascal VOC數據集上,我們對60k小批使用0.001的學習率,對下一個20k小批使用0.0001的學習率。我們使用的動量爲0.9%,重量衰減率爲0.0005[37]。我們的實現使用Caffe[38]。

3.2 Sharing Features for RPN and Fast R-CNN

  到目前爲止,我們已經描述瞭如何訓練用於區域建議生成的網絡,而沒有考慮將利用這些建議的基於區域的對象檢測CNN。對於檢測網絡,我們採用Fast R-CNN[2]。接下來,我們描述學習由具有共享卷積層的RPN和Fast R-CNN組成的統一網絡的算法(圖2)。
  RPN和Fast R-CNN都是獨立訓練的,它們會以不同的方式修改它們的卷積層。因此,我們需要開發一種技術,允許兩個網絡共享卷積層,而不是學習兩個獨立的網絡。我們將討論三種訓練具有共享功能的網絡的方法:
(I)交替訓練。在這個解決方案中,我們首先訓練RPN,然後使用這些建議來訓練Fast R-CNN。然後使用由Fast R-CNN調諧的網絡來初始化RPN,並且重複該過程。這是本文所有實驗中使用的解決方案。
**(II)**近似聯合訓練。在此解決方案中,RPN和Fast R-CNN網絡在訓練期間合併爲一個網絡,如圖2所示。在每次SGD迭代中,前向傳遞生成區域建議,這些區域建議在訓練Fast R-CNN檢測器時被視爲固定的預先計算的建議。反向傳播照常發生,其中對於共享層,來自RPN損耗和快速R-CNN損耗兩者的反向傳播信號被組合。該解決方案易於實施。但是這個解忽略了導數w.r.t。建議箱的座標也是網絡響應,所以是近似值。在我們的實驗中,我們發現這種求解器得到了接近的結果,但與交替訓練相比,訓練時間減少了約25%-50%。此解算器包含在我們發佈的Python代碼中。
(III)非近似聯合訓練。如上所述,由RPN預測的邊界框也是輸入的函數。Fast R-CNN中的ROI池化層[2]接受卷積特徵和預測的邊界框作爲輸入,因此理論上有效的反向傳播求解器也應該包括梯度w.r.t。盒子的座標。在上述近似聯合訓練中忽略了這些梯度。在非近似聯合訓練解決方案中,我們需要一個可微的w.r.t.。盒子的座標。這是一個不平凡的問題,可以通過[15]中提出的“ROI翹曲”層給出解決方案,這超出了本文的範圍。
4-Step Alternating T raining 。本文采用一種實用的4步訓練算法,通過交替優化來學習共享特徵。在第一步中,我們按照3.1.3節中的說明訓練RPN。此網絡使用ImageNet預先訓練的模型進行初始化,並針對區域建議任務進行端到端微調。在第二步中,我們使用STEP-1RPN生成的建議,用Fast R-CNN訓練一個單獨的檢測網絡。該檢測網絡也由ImageNet預訓練模型初始化。在這一點上,兩個網絡不共享卷積層。在第三步中,我們使用檢測器網絡來初始化RPN訓練,但是我們固定共享的卷積層,並且只微調RPN特有的層。現在這兩個網絡共享卷積層。最後,在保持共享卷積層不變的情況下,我們對Fast R-CNN的獨特層進行了微調。因此,兩個網絡共享相同的卷積層並形成統一的網絡。類似的交替訓練可以運行更多的迭代,但我們觀察到的改進可以忽略不計。

3.3 Implementation Details

  我們在單個尺度的圖像上訓練和測試了區域建議網絡和目標檢測網絡[1]、[2]。我們重新縮放圖像,使其短邊爲s=600像素[2]。多尺度特徵提取(使用圖像金字塔)可能會提高精度,但不能很好地權衡速度和精度[2]。在重新縮放的圖像上,ZF網和VGG網在最後一卷積層上的總步長爲16像素,因此在調整大小之前的典型PASCAL圖像上爲∼10像素(∼500×375)。即使是如此大的步幅也能提供很好的效果,儘管用較小的步幅可能會進一步提高精確度。
  對於錨點,我們使用3個比例,框面積分別爲1282、2562和5122像素,縱橫比爲1:1、1:2和2:1。對於特定的數據集,這些超參數沒有仔細選擇,我們將在下一節提供它們的消融實驗。正如所討論的,我們的解決方案不需要圖像金字塔或濾波器金字塔來預測多尺度的區域,從而節省了相當多的運行時間。圖3(右)顯示了我們的方法在廣泛的比例和縱橫比範圍內的能力。表1顯示了使用ZF網學習的每個錨的平均建議大小。我們注意到,我們的算法允許比基礎接受域更大的預測。這樣的預測並不是不可能的-如果只有物體的中間是可見的,人們仍然可以粗略地推斷出物體的範圍。

  跨越圖像邊界的錨定框需要小心處理。在培訓期間,我們忽略所有跨境錨,因此他們不會造成損失。對於一個典型的1000×600圖像,總共大約有20000個(≈60×40×9)錨。在忽略跨界錨點的情況下,每幅圖像大約有6000個錨點用於訓練。如果在訓練過程中不忽略越界離羣點,它們會在目標中引入較大的、難以糾正的誤差項,並且訓練不收斂。然而,在測試期間,我們仍然將完全卷積RPN應用於整個圖像。這可能會生成跨境建議框,我們將其裁剪到圖像邊界。

  一些RPN提案彼此高度重疊。爲了減少冗餘,我們根據建議區域的CLS得分對其進行非最大抑制(NMS)。我們將網管的IOU閾值固定爲0.7,每張圖片大約有2000個提案區域。正如我們將展示的那樣,NMS不會損害最終的檢測精度,但會大大減少建議的數量。在NMS之後,我們使用排名前N的建議區域進行檢測。在下面,我們使用2000個RPN提案訓練Fast R-CNN,但在測試時評估不同數量的提案。

5總結

我們提出的RPN可以高效、準確地生成區域方案。通過共享卷積具有下游檢測網絡的特點,區域建議步驟幾乎是免費的。我們的方法使得統一的、基於深度學習的目標檢測系統能夠以接近實時的幀速率運行。學習的RPN還提高了區域建議質量,從而提高了整體目標檢測精度。

REFERENCES

[1] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in European Conference on Computer Vision (ECCV), 2014.

[2] R. Girshick, “Fast R-CNN,” in IEEE International Conference on Computer Vision (ICCV), 2015.

[3] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015.

[4] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” International
Journal of Computer Vision (IJCV), 2013.

[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[6] C. L. Zitnick and P. Dollár, “Edge boxes: Locating object proposals from edges,” in European Conference on Computer Vision(ECCV),2014.

[7] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[8] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2010.

[9] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” in International Conference on Learning Representations (ICLR), 2014.

[10] S. Ren, K. He, R. Girshick, and J. Sun, “FasterR-CNN: Towards real-time object detection with region proposal networks,” in
Neural Information Processing Systems (NIPS), 2015.

[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results,” 2007.

[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick, “Microsoft COCO: Common Objects in Context,” in European Conference on Computer Vision (ECCV), 2014.

[13] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object detection in rgb-d images,” arXiv:1511.02300, 2015.

[14] J. Zhu, X. Chen, and A. L. Yuille, “DeePM: A deep part-based model for object detection and semantic part localization,” arXiv:1511.07131, 2015.

[15] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” arXiv:1512.04412, 2015.

[16] J. Johnson, A. Karpathy, and L. Fei-Fei, “Densecap: Fully convolutional localization networks for dense captioning,” arXiv:1511.07571, 2015.

[17] D. Kislyuk, Y. Liu, D. Liu, E. Tzeng, and Y. Jing, “Human curation and convnets: Powering item-to-item recommendations on pinterest,” arXiv:1511.04003, 2015.

[18] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385, 2015.

[19] J. Hosang, R. Benenson, and B. Schiele, “How good are detection proposals, really?” in British Machine Vision Conference (BMVC), 2014.

[20] J. Hosang, R. Benenson, P. Dollar, and B. Schiele, “What makes for effective detection proposals?” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015.

[21] N. Chavali, H. Agrawal, A. Mahendru, and D. Batra, “Object-Proposal Evaluation Protocol is ’Gameable’,” arXiv: 1505.05836, 2015.

[22] J. Carreira and C. Sminchisescu, “CPMC: Automatic object segmentation using constrained parametric min-cuts,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[23] P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik, “Multiscale combinatorial grouping,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[24] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image windows,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[25] C. Szegedy, A. Toshev, and D. Erhan, “Deep neural networks for object detection,” in Neural Information Processing Systems (NIPS), 2013.

[26] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[27] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable, high-quality object detection,” arXiv:1412.1441 (v1), 2015.

[28] P. O. Pinheiro, R. Collobert, and P. Dollar, “Learning to segment object candidates,” in Neural Information Processing Systems (NIPS), 2015.

[29] J. Dai, K. He, and J. Sun, “Convolutional feature masking for joint object and stuff segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun, “Object detection networks on convolutional feature maps,” arXiv:1504.06066, 2015.

[31] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,” in Neural Information Processing Systems (NIPS), 2015.

[32] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014.

[33] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in International Conference on Machine Learning (ICML), 2010.

[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich, “Going deeper with convolutions,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[35] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, 1989.

[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet Large Scale Visual Recognition Challenge,” in International Journal of Computer Vision (IJCV), 2015.

[37] A. Krizhevsky, I. Sutskever, and G. Hinton, “Imagenet classification with deep convolutional neural networks,” in Neural Information Processing Systems (NIPS), 2012.

[38] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for fast feature embedding,” arXiv:1408.5093, 2014.

[39] K. Lenc and A. Vedaldi, “R-CNN minus R,” in British Machine Vision Conference (BMVC), 2015.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章