Faster R-CNN論文詳解【目標檢測1——基於RPN的實時目標檢測】

寫在前面:大家好!我是【AI 菌】,一枚愛彈吉他的程序員。我熱愛AI、熱愛分享、熱愛開源! 這博客是我對學習的一點總結與思考。如果您也對 深度學習、機器視覺、算法、Python、C++ 感興趣,可以關注我的動態,我們一起學習,一起進步~
我的博客地址爲:【AI 菌】的博客
我的Github項目地址是:【AI 菌】的Github

這篇論文原名爲:《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》
作者豪華陣容:Shaoqing Ren(任少卿), Kaiming He(何凱明), Ross Girshick, and Jian Sun(孫劍)
其中有三位華人,這一點還是挺令我們自豪的;另一位作者Ross Girshick是R-CNN系列開篇之作的作者。

溫馨提示:Faster R-CNN的實戰手把手教程也將更新,想學習的同學,可以關注我的博客動態。



摘要

最先進的目標檢測網絡依靠區域建議算法來估計目標的位置。SPPnet和Fast R-CNN算法減少了這些檢測網絡的運行時間,但是也暴露了區域推薦算法計算的瓶頸。在這篇論文中,我們介紹了一個區域推薦網絡(RPN),該區域推薦網絡與檢測網絡共享整張圖的卷積特徵,使得區域推薦基本不消耗任何計算時間。RPN是一個完全卷積網絡,可以同時預測每個位置的目標邊界和目標得分。對RPN進行端到端的訓練,以生成高質量的Fast R-CNN用於檢測推薦區域。通過使用最近流行的“注意力”機制的神經網絡共享RPN和Fast R-CNN的卷積特徵,將RPN和Fast R-CNN進一步合併爲一個單個網絡,RPN各部分告訴單個網絡要看的地方。對於非常深的VGG-16模型,我們的檢測系統在GPU上的幀速率爲5fps(包括所有步驟),同時在PASCAL VOC 2007、2012和MS COCO數據集上達到了最新的目標檢測精度,每個圖像僅包含300個推薦區域。在ILSVRC和COCO 2015競賽中,Faster R-CNN和RPN是多個賽道中第一名獲勝作品的基礎。

關鍵字:目標檢測,推薦區域,卷積神經網絡


1. 介紹

推薦區域方法(例如《Selective search for object recognition》)和基於推薦區域的卷積神經網絡(R-CNN)的成功推動了對象檢測的最新進展。儘管基於推薦區域的CNN計算代價很大,但由於在Fast R-CNN算法中進行共享卷積,因此其計算成本已大大降低。最近相關的研究——Fast R-CNN,在忽略生成推薦區域花費的時間時,使用非常深的網絡實現了接近實時的速度。目前,生成推薦區域的過程耗時長是滿足實時檢測的最大瓶頸
注:在R-CNN和Fast R-CNN中,一般採用的是Selective Search算法生成推薦區域,這個過程大概耗時2s左右,因此R-CNN和Fast R-CNN都還達不到實時的效果。

Selective Search是最流行的方法之一。然而,與高效的檢測網絡相比,Selective Search的速度要慢一個數量級,在CPU實現中每張圖像耗時2秒。EdgeBoxes算法是當前生成推薦區域質量和速度之間的最佳權衡,每張圖像耗時0.2秒。 儘管如此,生成推薦區域過程仍然與檢測網絡消耗一樣多的運行時間。

在本文中,我們展示了一種新的算法——使用深度卷積神經網絡計算推薦區域,從而得到了一個高效的解決方案。這種方法幾乎不給目標檢測網絡增加額外的耗時。爲此,我們提出了與最新的目標檢測網絡Fast R-CNN共享卷積層的新穎的區域推薦網絡(RPN)。通過在測試時共享卷積,使得生成推薦區域的額外時間成本很小(例如,每張圖片耗時10毫秒)。

我們的觀察結果是,基於推薦區域的檢測器(如Fast RCNN)使用的卷積特徵圖也可用於生成推薦區域。在這些卷積特徵之上,我們通過添加一些其他卷積層來構建RPN,這些卷積層同時迴歸規則網格上每個位置的區域邊界和客觀性得分。 因此,RPN是一種全卷積網絡(FCN)[7],可以專門針對生成推薦區域的檢測任務進行端到端訓練。
在這裏插入圖片描述
RPN旨在以各種比例和縱橫比有效預測推薦區域。與使用圖像金字塔(圖1,a)或卷積金字塔(圖1,b)的流行方法相比,我們介紹了新穎的"anchor box"作爲多種比例和縱橫比的參考。我們的方案可以看作是迴歸參考的金字塔(圖1,c),它避免了枚舉具有多個比例或縱橫比的圖像或卷積核。當使用單比例尺圖像進行訓練和測試時,該模型表現良好,從而提高了運行速度

爲了將RPN與快速Fast R-CNN目標檢測網絡統一起來,我們提出了一種訓練方案,該方案在對推薦區域任務進行微調與對目標檢測進行微調之間交替,同時保持推薦區域不變。 該方案可以快速收斂,並生成具有卷積特徵的統一網絡,這兩個任務之間可以共享該卷積功能。

我們在PASCAL VOC檢測標準上全面評估了我們的方法,其中具有Fast R-CNN的RPN產生的檢測精度要優於通過Selective Search生成推薦區域的Fast R-CNN。同時,我們的方法在測試時幾乎免除了Selective Search的所有計算耗時,產生推薦區域的有效運行時間僅爲10毫秒。 使用非常深的模型,我們的檢測方法在GPU上的幀速率仍然爲5fps(包括所有步驟),因此在速度和準確性方面都是實用的目標檢測系統。 我們還報告了在MS COCO數據集上的測試結果,並使用COCO數據研究了在PASCAL VOC上的改進。

在ILSVRC和COCO 2015競賽中,Faster R-CNN和RPN是ImageNet目標檢測,ImageNet定位,COCO檢測和COCO分割中幾個第一名的基礎[18]。RPN完全學會了根據數據推薦區域,因此可以輕鬆地從更深,更具表現力的特徵(例如[18]中採用的101層殘差網絡)中受益。 在這些比賽中,其他一些領先的參賽者也使用了Faster R-CNN和RPN。這些結果表明,我們的方法不僅是一種實用的高性價比解決方案,而且還是提高物體檢測精度的有效途徑。

2. 相關工作

目標推薦框。關於目標推薦的方法文獻有很多。廣泛使用的目標推薦方法包括基於超像素分組的方法(例如,選擇性搜索,CPMC,MCG)和基於滑動窗口的方法(例如,objectness in windows,EdgeBoxes)。採用目標推薦方法作爲獨立於檢測器的外部模塊(例如,選擇性搜索目標檢測器,R-CNN和Fast R-CNN)。
注:這裏所說的目標推薦,也就等同於R-CNN和Fast R-CNN所說的區域推薦。

用於目標檢測的深度網絡。卷積的共享計算已吸引了越來越多的關注,以進行有效而準確的視覺識別。 OverFeat論文從圖像金字塔計算卷積特徵,以進行分類,定位和檢測。共享卷積特徵圖上的自適應大小池(SPP)被開發用於有效的基於區域的目標檢測和語義分割[29]。Fast R-CNN可以對共享卷積特徵進行端到端檢測器的訓練,並顯示出令人信服的準確性和速度。

3. Faster R-CNN

我們將該目標檢測系統命名爲Faster R-CNN,它是由兩個模塊組成。第一個是,用於生成推薦區域的深度全卷積網絡(deep fully convolutional network)。第二個是,使用該推薦區域的Fast R-CNN檢測器。整個系統是用來目標檢測的一個單一的、整體的網絡(如圖2所示)。使用最近神經網絡方面一個很流行的術語——注意力機制,RPN模塊告訴Fast R-CNN從哪裏去看。在3.1節,我們會介紹用於推薦區域網絡(RPN)的設計和特性。在3.2節,我們進一步優化用於訓練共享卷積的兩個模塊的算法。
在這裏插入圖片描述

3.1 Region Proposal Networks

區域推薦網絡(RPN)接收(任意大小的)圖像作爲輸入,並輸出一組矩形的目標推薦框,每個目標推薦框都有一個客觀評分。我們使用全卷積網絡對該過程進行建模,我們將在本節中對其進行描述。因爲我們的最終目標是與Fast R-CNN目標檢測網絡共享計算,所以我們假設兩個網絡共享一組共同的卷積層。在我們的實驗中,我們研究了具有5個可共享卷積層的Zeiler和Fergus模型(ZF)和具有13個可共享卷積層的Simonyan和Zisserman模型(VGG-16)。

爲了生成推薦區域,我們在最後共享的卷積層輸出的卷積特徵圖上滑動一個小型網絡。這個小網絡將輸入卷積特徵圖的n×n空間窗口作爲輸入。每個滑動窗口都映射到一個較低維的特徵(ZF爲256-d,VGG爲512-d,後面是ReLU)。此功能被饋入兩個同級的全連接層——邊界框迴歸層(reg)和框分類層(cls)。在本文中,我們使用n = 3,注意輸入圖像上的有效接收場很大(ZF和VGG分別爲171和228像素)。在圖3的單個位置(左)顯示了此微型網絡。請注意,由於微型網絡以滑動窗口的方式運行,因此完全連接的層將在所有空間位置上共享。自然地,該體系結構由n×n卷積層和兩個同級1×1卷積層(分別用於reg和cls)實現。
在這裏插入圖片描述

3.1.1 Anchors

在每個滑動窗口位置,我們同時預測多個推薦區域,其中每個位置的最大可能推薦數目爲k。因此,迴歸層具有4k個輸出,該輸出對k個框的座標進行編碼,而分類層輸出2k個分數,這些分數估計每個推薦框的目標或非目標的概率。相對於k個參考框(稱爲錨點),對k個推薦框進行了參數化。錨點位於相關滑動窗口的中心,並與比例和寬高比相關聯(圖3,左)。 默認情況下,我們使用3個比例和3個縱橫比,在每個滑動位置產生k = 9個錨點。 對於大小爲W×H(通常約爲2400)的卷積特徵圖,總共有W×H×k個Anchors

Translation-Invariant Anchors
我們的方法的一個重要特性是,在錨點和計算相對於錨點的推薦的函數方面,它都是平移不變的。如果一個人翻譯了圖像中的一個目標,則該推薦框應進行翻譯,並且相同的功能應能夠在任一位置預測該推薦框。我們的方法保證了平移不變的特性。作爲比較,MultiBox方法使用k均值生成800個錨點,這些錨點不是平移不變的。因此,MultiBox不保證翻譯對象時會生成相同的推薦框。

平移不變屬性還減小了模型大小。 MultiBox具有(4 + 1)×800維全連接輸出層,而在k = 9個錨的情況下,我們的方法具有(4 + 2)×9維卷積輸出層。結果,我們的輸出層具有2.8×1042.8×10^4個參數(VGG-16爲512×(4 + 2)×9),比具有6.1×1066.1×10^6個參數少很多(1536×(4 + 1)×800(對於MultiBox中的GoogleNet)。如果考慮要素投影層,我們推薦層的參數仍然比MultiBox 6少一個數量級。我們希望我們的方法在較小的數據集(如PASCAL VOC)上過擬合的風險較小。

Multi-Scale Anchors as Regression References
我們的錨設計提出了一種解決多種比例(和縱橫比)的新穎方案。如圖1所示,有兩種流行的多尺度預測方法。第一種方法是基於圖像/特徵金字塔的,例如在DPM]和基於CNN的方法中。在多個比例尺上調整圖像大小,併爲每個比例尺計算特徵圖(HOG或深度卷積特徵)(圖1(a))。這種方法通常有用但很費時。第二種方法是在特徵圖上使用多個比例(和/或縱橫比)的滑動窗口。例如,在DPM中,使用不同的卷積核大小(例如5×7和7×5)分別訓練不同長寬比的模型。如果使用這種方法處理多個尺度,則可以將其視爲“卷積金字塔”(圖1(b))。第二種方法通常與第一種方法結合使用。

相比之下,我們的基於錨點的方法是基於錨點金字塔構建的,這種方法更具成本效益。我們的方法參照多個比例和縱橫比的錨框對邊界框進行分類和迴歸。它僅依賴於單一比例的圖像和特徵圖,並使用單一大小的濾鏡(在特徵圖上滑動窗口)。我們通過實驗證明了該方案對解決多種規模和規模的影響(表8)。
在這裏插入圖片描述

由於基於錨的這種多尺度設計,我們可以簡單地使用在單尺度圖像上計算出的卷積特徵,就像快速R-CNN檢測器所做的一樣。多尺度錨點的設計是共享功能而無需花費額外成本解決尺度的關鍵組成部分。

3.1.2 損失函數

爲了訓練RPN,我們爲每個錨分配一個二進制類標籤(無論是不是目標)。我們通過兩種方法確定Anchors的正標籤:(i)Anchors與ground truth的IOU值最高的Anchor (ii)與ground truth的IOU大於0.7的Anchors。 請注意,單個真實框可能爲多個Anchors分配正標籤。通常,第二個條件足以確定正樣本。但是我們仍然採用第一個條件是因爲在極少數情況下,第二個條件可能找不到正樣本。如果anchor與所以的真實框的IoU值均低於0.3,則只能爲Anchor分配負標籤。既非正樣本也非負樣本的Anchor,不有助於訓練目標。
利用這些定義,我們將損失函數定義爲:
在這裏插入圖片描述
在此,i 是小批量中Anchors的索引,而 pip_i 是第 i 個Anchor中有目標的預測概率。如果Anchor是正標籤,則真實標籤 pip_i^* 爲1;如果Anchor是負標籤,則 pip_i^* 爲0。

tit_i 是代表預測邊界框的4個參數化座標的向量;tit_i^* 是與正標籤的Anchor的對應的真實框的參數化座標。

分類損失 LclsL_{cls} 是兩類(包含與不包含目標的Anchor)的對數損失。

對於迴歸損失,Lreg(ti,ti)=R(titi)L_{reg}(t_i, t_i^*)=R(t_i-t_i^*)。其中R是在《Fast R-CNN》中定義的具有魯棒性的損失函數——Smooth L1。公式中 piLregp_i^*L_{reg} 表示僅對包含目標(正標籤)的Anchor進行迴歸,不對負標籤的Anchor進行迴歸。
通過查找了其他的資料,這裏給出Smooth L1 函數的表達形式:
SmoothL1(x)={0.5x2x<1x0.5otherwise Smooth_{L_1}(x)=\begin{cases} 0.5 x^2 & |x|<1 \\ |x|-0.5 & otherwise \\ \end{cases}

分類層和迴歸層的輸出分別由{pi{p_i}}和{ti{t_i}}組成。

通過 NclsN_{cls}NregN_{reg} 對分類、迴歸項分別進行標準化,並通過平衡參數λ對其進行加權。在我們當前的實現中,等式(1)中的分類項通過小批量大小(即NclsN_{cls} = 256)進行標準化,而回歸項通過錨框位置的數量進行標準化( 即NregN_{reg} 在2,400左右)。
默認情況下,我們將 λ 設置爲10,因此分類和迴歸項的權重大致相等。我們通過實驗表明,結果對寬範圍內的λ值不敏感(表9)。我們還注意到,上面的標準化不是必需的,可以簡化。
在這裏插入圖片描述
對於邊界框迴歸,我們按照R_CNN中採用4個座標的參數化:

在這裏插入圖片描述
其中x,y,w和h表示框的中心座標及其寬度和高度。變量xxaxx,x_ a和x ^∗分別表示預測框,錨框和真實框的參數(同樣對於y,w,h)。可以將其視爲從錨框到附近的真實框的邊界框迴歸。

然而,我們的方法通過與以前的基於RoI的(感興趣區域)方法[1],[2]不同的方式實現了邊界框迴歸。在[1],[2]中,對從任意大小的RoI合併的特徵執行邊界框迴歸,並且迴歸權重由所有區域大小共享。在我們的公式中,用於迴歸的特徵在特徵圖上具有相同的空間大小(3×3)。爲了說明變化的大小,學習了一組k個邊界框的迴歸器。每個迴歸器負責一個比例和一個長寬比,而k個迴歸器不共享權重。這樣,由於錨框的設計,即使特徵具有固定的大小/比例,仍然可以預測各種大小的盒子。

3.1.3 訓練RPNs

RPN可以通過反向傳播和隨機梯度下降(SGD)進行端到端訓練。我們遵循[2]中的“以圖像爲中心”的採樣策略來訓練該網絡。每個小批量處理均來自包含多個正負示例錨框的單個圖像。可以針對所有錨框的損失函數進行優化,但是由於它們占主導地位,因此會偏向於負樣本。取而代之的是,我們在圖像中隨機採樣256個錨,以計算小批次的損失函數,其中正採樣和負錨的採樣比例最高爲1:1。如果圖像中的正樣本少於128個,則用負樣本填充小批量。

我們通過從零均值高斯分佈中提取權重(標準偏差爲0.01)來隨機初始化所有新層。所有其他層(即共享卷積層)都通過預先訓練ImageNet分類模型來初始化,這是標準做法。我們調整ZF網絡的所有層,並轉換conv3_1以及VGG網絡以節省內存。對於PASCAL VOC數據集,我們對6萬個小批量使用0.001的學習率,對接下來的20k小批量使用0.0001的學習率。我們使用0.9的動量和0.0005的權重衰減。我們使用Caffe進行實現。

3.2 RPN和Fast R-CNN共享卷積

到目前爲止,我們已經描述瞭如何爲生成推薦區域而訓練網絡,而沒有考慮到這基於區域的目標檢測CNN利用這些推薦區域。對於檢測網絡,我們採用Fast R-CNN。接下來,我們描述用於學習由RPN和Fast R-CNN組成的具有共享卷積層的統一網絡的算法(如圖2)

經過獨立訓練的RPN和Fast R-CNN都將以不同的方式修改其卷積層。因此,我們需要開發一種技術,該技術允許在兩個網絡之間共享卷積層,而不是學習兩個單獨的網絡。我們討論了三種共享功能的網絡訓練方法:
(i)交替訓練。在此解決方案中,我們首先訓練RPN,然後使用這些推薦框來訓練Fast R-CNN。然後,使用由Fast R-CNN微調的網絡初始化RPN,然後重複此過程。這是本文所有實驗中使用的解決方案。
(ii)近似聯合訓練。在此解決方案中,如圖2所示,在訓練期間將RPN和快速R-CNN網絡合併爲一個網絡。在每次SGD迭代中,前向傳遞都會生成推薦區域,在訓練快速時就像對待固定的預先計算的推薦一樣對待 R-CNN檢測器。反向傳播照常進行,其中對於共享層,來自RPN損耗和Fast R-CNN損耗的反向傳播信號被組合在一起。該解決方案易於實現。但是此解決方案忽略了導數w.r.t. 推薦框的座標也是網絡響應,因此是近似值。在我們的實驗中,我們憑經驗發現此求解器產生的結果接近,但與交替訓練相比,訓練時間減少了約25-50%。
(iii)非近似聯合訓練。如上所述,RPN預測的邊界框也是輸入的函數。快速R-CNN中的RoI合併層[2]接受卷積特徵,並接受預測的邊界框作爲輸入,因此,理論上有效的反向傳播求解器也應包含梯度w.r.t、框座標。這些梯度在上面的近似聯合訓練中被忽略。在一個非近似的聯合訓練解決方案中,我們需要一個w.r.t. 框座標。這是一個不平凡的問題,可以通過[15]中開發的“RoI warping”層來提供解決方案,這超出了本文的範圍。

四步交替訓練。在本文中,我們採用實用的4步訓練算法來通過交替優化學習共享特徵。 第一步,我們按照3.1.3節所述訓練RPN。該網絡使用ImageNet預先訓練的模型進行初始化,並針對區域推薦任務端到端進行了微調。在第二步中,我們使用步驟1 RPN生成的推薦區域,通過Fast R-CNN訓練一個單獨的檢測網絡。該檢測網絡也由ImageNet預訓練模型初始化。此時,兩個網絡不共享卷積層。第三步,我們使用檢測器網絡初始化RPN訓練,但是我們修復了共享卷積層,並且僅微調了RPN唯一的層。現在,這兩個網絡共享卷積層。最後,保持共享卷積層固定不變,我們對Fast R-CNN的唯一層進行微調。這樣,兩個網絡共享相同的卷積層並形成統一的網絡。可以進行類似的交替訓練進行更多的迭代,但是我們觀察到的改進微不足道。

3.3 實施細節

對於錨框,我們使用3個比例,框區域分別爲128×128,256×256和512×512像素,以及3個縱橫比爲1:1、1:2和2:1。這些超參數不是爲特定的數據集精心選擇的,我們將在下一部分中提供有關其影響的消融實驗。如前所述,我們的解決方案不需要圖像金字塔或卷積金字塔即可預測多個尺度的區域,從而節省了可觀的運行時間。圖3(右)顯示了我們的方法在各種比例尺和縱橫比下的特徵。表1顯示了使用ZF網絡爲每個錨框學習的平均推薦區域大小。我們注意到,我們的算法所允許的預測要大於潛在的感受野。這樣的預測並非不可能,如果只有目標的中間可見,則仍可以粗略地推斷出目標的範圍。

在這裏插入圖片描述
跨圖像邊界的錨框需要小心處理。在訓練期間,我們將忽略所有跨邊界錨,因此它們不會造成損失。對於典型的1000×600圖像,總共將有大約20000(≈60×40×9)個錨框。忽略跨邊界錨框,每個圖像大約有6000個錨框用於訓練。如果在訓練中不忽略跨界離羣值,則會在目標中引入較大且難以校正的誤差項,並且訓練不會收斂。但是,在測試期間,我們仍將全卷積RPN應用於整個圖像。這可能會生成跨邊界推薦框,我們會將其裁剪到圖像邊界。

一些RPN推薦框彼此高度重疊。爲了減少冗餘,我們根據推薦區域的類別預測分數採用非最大抑制(NMS)。我們將NMS的IOU閾值固定爲0.7,這使我們每個圖像大約有2000個推薦區域。正如我們將顯示的那樣,NMS不會損害最終的檢測準確性,但是會大大減少推薦區域的數量。在NMS之後,我們使用排名前N位的推薦區域進行檢測。接下來,我們使用2000個RPN提案訓練Fast R-CNN,但是在測試時評估不同數量的推薦區域。

4. 實驗

4.1 PASCAL VOC上的實驗

我們根據PASCAL VOC 2007檢測基準全面評估了我們的方法。該數據集由大約20個目標類別的5000張訓練圖像和5000張測試圖像組成。我們還提供了一些型號的PASCAL VOC 2012基準測試結果。對於ImageNet預訓練網絡,我們使用具有5個卷積層和3個完全連接層的ZFnet[快速]版本,以及具有13個卷積層的公共VGG-16模型。3個全連接層。我們主要評估平均檢測精度(mAP),因爲這是目標檢測的實際指標。
在這裏插入圖片描述
表2(頂部)顯示了使用各種推薦區域方法進行訓練和測試時的Fast R-CNN結果。這些結果使用ZF網絡。對於選擇性搜索(SS),我們通過“快速”模式生成了大約2000個推薦框。對於EdgeBoxes(EB),我們通過調整爲0.7 IoU的默認EB設置生成推薦區域。在Fast R-CNN框架下,SS的mAP爲58.7%,EB的mAP爲58.6%。具有快速R-CNN的RPN獲得了競爭性的結果,mAP達到59.9%,同時使用了多達300個建議框。由於共享卷積計算,使用RPN產生的檢測系統比使用SS或EB的檢測系統快得多。較少的推薦區域也降低了region-wise全連接層的成本(表5)。

在這裏插入圖片描述
VGG-16的性能表3列出了推薦和檢測的VGG-16結果。使用RPN + VGG,未共享特徵的結果爲68.5%,略高於SS基準。如上所示,這是因爲RPN + VGG生成的建議比SS更準確。與預定義的SS不同,RPN受到了積極地訓練,並從更好的網絡中受益。對於特徵共享的變體,結果爲69.9%,比強大的SS基準要好,但幾乎沒有成本。我們將在PASCAL VOC 2007和2012的聯合訓練中進一步訓練RPN和檢測網絡。最低目標爲73.2%。圖5顯示了PASCAL VOC 2007測試集上的一些結果。在PASCAL VOC 2012測試集(表4)上,我們的方法在VOC 2007 trainval + test和VOC 2012 trainval的並集上訓練的mAP爲70.4%。表6和表7顯示了詳細數字。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
Analysis of Recall-to-IoU。接下來,我們使用真實框計算不同IoU比率下推薦框的召回率。值得注意的是,Recall-to-IoU指標與最終檢測精度只是鬆散的。使用此指標來診斷推薦方法比評估推薦更合適。
圖4中,我們顯示了使用300、1000和2000個推薦框的結果。我們將它們與SS和EB進行比較,根據這些方法所產生的置信度,N個推薦框是排名前N位的推薦框。這些圖表明,當推薦區域數量從2000個減少到300個時,RPN方法表現得很正常。這解釋了爲什麼當使用最少300個推薦框時RPN具有良好的最終檢測mAP。正如我們之前分析的那樣,此屬性主要歸因於RPN的分類項。當推薦區域減少時,SS和EB的召回率比RPN下降得更快。
在這裏插入圖片描述

4.2 MS COCO上的實驗

我們在Microsoft COCO目標檢測數據集上提供了更多結果。該數據集涉及80個對象類別。我們使用訓練集上的80k圖像,驗證集上的40k圖像和測試開發集上的20k圖像進行實驗。我們評估了IoU∈[0.5:0.05:0.95](COCO的標準度量,簡稱爲mAP @ [0.5,0.95])和[email protected](PASCAL VOC度量)的平均mAP。
在這裏插入圖片描述
表11中,我們首先使用本文中的實現報告了Fast R-CNN系統的結果[2]。我們的Fast R-CNN基準測試集上的[email protected]爲39.3%,高於[2]中的報告。我們推測產生這種差距的原因主要是由於負樣品的定義以及小批量大小的變化。我們還注意到,mAP @[0.5,0.95]只是可比的。

5. 結論

我們已經提出了RPN用於生成有效而準確的推薦區域。通過與下游檢測網絡共享卷積特徵,推薦區域步驟幾乎是不耗時的。我們的方法使統一的,基於深度學習的目標檢測系統能夠以接近實時的幀速率運行。所學習的RPN還提高了推薦區域的質量,從而提高了總體目標檢測精度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章