A CLOSER LOOK: SMALL OBJECT DETECTION IN FASTER R-CNN

摘要

Faster R-CNN是一種衆所周知的物體檢測方法,它將區域提議的生成及其分類結合到單個管線中。 在本文中,我們將Faster R-CNN應用於公司徽標檢測任務。 受小型對象實例的R-CNN性能較弱的推動,我們對提案和分類階段進行了詳細檢查,檢查了它們在各種對象大小下的行爲。 另外,我們看看feature map分辨率對這些階段性能的影響。 我們引入了一個改進的方案來生成錨定提案,並提出對Faster R-CNN進行修改,該方法利用較高分辨率的小對象feature map 我們在閃爍數據集上評估我們的方法,提高了小對象實例的檢測性能

1、介紹

當前的物體檢測流水線如Faster R-CNN [1] [2]建立在深度神經網絡上,其卷積層通過應用先前學習的卷積,然後對圖像應用非線性激活函數來提取越來越多的抽象特徵表示。 在此過程中,通常會使用max-pooling對中間feature map進行多次下采樣。

(a)它降低了應用模型的計算複雜度,(b)有助於實現特徵表示的一定程度的平移不變性,並且(c)還增加了更深層中的神經元的接收場。 這些優點的另一面是特徵圖,其分辨率比原始圖像低得多。 由於這種降低的分辨率,很難將特徵與原始圖像中的精確位置相關聯。

儘管存在這種潛在的缺點,但這種方法在圖像分類和目標檢測領域已經非常成功。 對於大多數應用來說,像素精確定位並不重要。

在本文中,我們考察了公司徽標檢測問題中來自不同層次特徵層次的特徵表示的適用性。 公司標識檢測是一種吸引很多商業興趣的對象檢測應用。 在表面層面上,公司標識檢測不過是一般對象檢測的特例。 但是,公司徽標很少是拍攝照片時想要拍攝的物體。 相反,他們通常偶然會偶然陷入圖片中。 因此,公司標誌傾向於佔據相當小的圖像區域。

IoU是評估本地化質量的通常標準。 通過這種測量,一個給定數量的像素關閉的檢測對小的對象實例的影響比對大的影響更大。 因此,小型對象實例需要比大型實例更精確的本地化才能被分類爲正確的檢測。

解決這個問題的一個簡單方法是對圖像進行上採樣並重複檢測,但這種簡單的方法並不是很吸引人,因爲應用卷積的努力隨着圖像的邊長而二次增長。 對於公司標誌檢測尤其如此,其中對象通常比圖像小,導致很多不必要的計算。

貢獻如下:

1. 我們從理論上研究提案階段的小物件問題。 我們推導出描述可合理提出的最小目標尺寸的關係,併爲選擇合適的anchors尺度提供啓發式。

2. 我們使用不同feature map中的特徵進行詳細的實驗,這些實驗將提案和分類階段的行爲視爲對象大小的函數。 更深的圖層可能能夠提供更高質量的特徵,這意味着單個激活對輸入刺激比早期圖層更具特異性。 我們表明,在小對象的情況下,來自較早層的特徵能夠提供與更深層的特徵性能相當的性能,甚至可以超過這些性能。

3. 我們以知名的FlickrLogos數據集評估我們的觀察結果,其形式爲對faster rcnn流水線的擴展。

2 相關工作

Wang等人以前曾研究過低分辨率數據。 [4]在圖像分類的背景下。他們得出結論:低分辨率分類問題不受益於更深層的網絡體系結構,更多的濾波器或更大的濾波器大小,並且還注意到大小物體的特徵表示之間的實質性差異。然而,[4]沒有討論它對物體檢測的影響。

貝爾等 [5][6]Fast-RCNN [1]的背景下確實考慮了小物體的物體檢測。 [6]明確考慮公司標誌檢測的問題,並注意接受領域,對象大小和檢測性能之間的關係。 [5]應用跳躍池技術來創建多尺度特徵表示。他們還考慮週期性網絡的特徵。然而,[5][6]都只考慮管道的分類階段。此外,他們沒有明確分析Fast R-CNN在多個feature map和比例上的行爲。

3 SMALL OBJECTS IN FASTER R-CNN

目前的物體檢測管線通常包含兩個階段:當前檢測管線的第一步通常是從圖像中識別感興趣區域(ROI)。這些投資回報率作爲關注模型,並提出潛在的對象位置,在第二階段進行更仔細的檢查。

對於我們的實驗,我們使用fasterR-CNN [2]方法的重新實施。Faster R-CNN通過一系列學習的卷積提取圖像的特徵表示。此feature map構成了對象建議階段和分類階段的基礎。第一步是通過區域提議網絡(RPN)完成的,該網絡通過在輸入圖像上生成具有指定大小和縱橫比的錨定區域的密集網格開始。

對於每個anchorsRPN--它是一個全卷積網絡 - 預測一個分數,這個分數是衡量這個anchors包含一個感興趣對象的概率的度量。此外,RPN爲每個錨點預測兩個偏移量和比例因子,這些偏移量和比例因子是邊界框迴歸機制的一部分,用於優化對象的位置。細化的錨點按照得分排序,受到非最大限制的抑制,最好的得分錨點作爲對象建議被保存,並被饋送到網絡的第二階段。

在訓練時候,anchors分爲正面和負面的例子,取決於他們與地面實例的重疊。 通常情況下,如果一個錨具有一個大於0.5的地面實體對象,則認爲它是一個正面的例子。

 [2]使用邊長爲2的冪,從128像素開始。 這種錨點選擇可以在數據集上提供良好的結果,例如VOC2007 [8],其中物體通常比較大並佔據整個圖像區域的相當大的比例。 此外,[2]還動態地重新縮放輸入圖像以放大對象。

放大輸入圖像通常不適用於公司徽標檢測。 1顯示了FlickrLogos [3]數據集的大小分佈。 平均物體尺寸與圖像的平均邊長(通常約1000像素)相比非常小。

1還清楚地表明,邊長爲128的錨不足以覆蓋物體尺寸的範圍。 爲了解決這個問題,人們可以簡單地使用[2]所使用的相同的功率二方案來增加額外的anchors。 然而,我們表明這種方案導致困難 - 特別是對於小物體 - 因爲它可能無法產生具有足夠重疊的anchors box

爲了說明這個問題,我們考慮圖2a中的情況:我們假設一個邊長爲sg的二次地面實邊界框Bg和一個邊長爲sa的二次方形anchors box。 此外,我們將假設w.l.o.g. sgsa,並且通過sa≥αsg通過縮放因子α≥1來關聯兩邊長度。 在這些條件下,我們可以在不改變IoU的情況下將Bg移動到Ba的任何位置。

在這種情況下,我們可以將IoU表示爲這些框包含的區域之間的比率:

 

 

2.a)在等長寬比的對齊邊界框的情況下,IoU可以表示爲邊界框區域的比率。 (b)當採用步幅採樣錨時,兩個尺寸相同的邊界框的最差情況位移d

爲了將anchors box分類爲正例,我們要求IoU超過某個閾值t。 因此,對於α>,錨點不能覆蓋具有足夠重疊的地面實體框,以便被歸類爲正例。 對於非四邊形錨點,同樣的關係是成立的 - 只要地面實箱和anchors box的縱橫比相匹配。

因此,相鄰尺度sa1sa2anchors box邊長應該通過sa2 = sa1相關。

  對於之前的考慮,我們假設存在一個錨點位置,在該位置錨點的角落與groundtruth實例完全對齊。 實際上,這是不正確的,因爲RPN所基於的網絡的特徵圖通常具有比原始圖像小得多的分辨率。 原始圖像和特徵映射之間的下采樣因子有效地導致具有步幅danchors網格。

爲了檢查特徵映射分辨率對RPN識別小對象實例的影響,我們考慮圖2b中的情況。 我們假設一個二次實證實例Bg和一個具有相同比例和縱橫比的anchors box Ba的存在。 在最壞的情況下,兩個盒子相互移動距離d/ 2。這些盒子之間的IoU可以表示爲:

 

對於sg求解tIoUBgBa),假設d> 00 <t <1且忽略該二次表達式的負解,我們獲得以下關於最小可檢測物體大小的以下關係:

 

對於用作Faster R-CNN d = 16的基礎的VGG16 [9]體系結構。假設t = 0.5,這轉換成sg44px的最小可檢測物體尺寸。 這表明,對於我們的尺寸分佈的小端來說,需要更高分辨率的特徵圖。 對於conv4特徵圖(d = 8),最小可檢測物體尺寸由sg22px給出。 由於我們不期望可靠地對小於30px的對象進行分類,所以我們使用下一個冪作爲最小anchors大小。

利用我們以前的結果,我們選擇作爲我們的anchorsA = 32,45,64,90,128,181,256,因爲我們遵循[2]的建議並設置t = 0.5

3.1. Region Proposals of small objects

我們想評估不同對象大小的RPN的有效性。 RPN質量的主要衡量標準是平均最佳重疊(MABO)。 它衡量RPN爲每個重疊度較高的對象生成至少一個提案區域的能力。 如果C表示一組對象類別,則Gc是特定類別cCL的對象提議集合的地面實體對象集合,我們可以通過其平均最佳重疊ABO評估特定類別cRPN的性能 c)由以下給出:

 

其中IoUgl)是地面實體項目g與提案l之間的聯合的交集。 MABO是每個對象類別的所有ABO值的意思。

爲了檢查對象大小對RPN性能的影響,我們通過將以下算法應用於每個圖像來創建FlickrLogos [3]數據集的不同比例合成變體

我們首先選擇兩個非重疊的groundtruth邊界框之間具有最大距離的點。 這一點定義了兩個軸,圖像將沿着這兩個軸被分成四個部分。 我們確保分割的軸不與其他任何groundtruth項目相交。 如果不能找到這樣的分割,圖像將被丟棄。 對於包含多個groundtruth項目的每個結果分區,該過程將遞歸應用。 應用此算法後,每個圖像只包含一個對象實例,然後將其重新縮放以匹配所需的目標大小。

使用這個算法,我們創建了11個不同縮放版本的測試集,我們稱之爲Ftestx,其中x{10 * i + 20 | i = 0。。。 10}表示以對象區域的平方根度量的目標對象大小。 此外,我們創建一個單一的訓練數據集Ftrain,其中的對象以這樣一種方式縮放,即對象區域的平方根均勻分佈在區間[20px120px]中。

爲了觀察不同層次的RPN的性能,我們基於[2]使用的VGG16 [9]架構創建了三個RPNconv3RPNconv4RPNconv5。這些網絡分別使用來自convconv4conv5圖層的功能來預測對象提議。這些特徵通過歸一化層,將激活歸一化爲零均值和單位方差。這與批量標準化相似[10]。然而,我們將訓練集的激活標準化,而不是像[10]中那樣關於當前批次。我們這樣做是爲了使我們能夠輕鬆使用現成的Imagenet [11]預先訓練好的VGG16網絡。那些預先訓練過的模型通常具有這樣的性質,隨着數據在網絡中的進展,激活的方差隨着層次而降低。該屬性使得很難對網絡體系結構進行某些更改。例如,添加不同深度的額外分支將導致每個分支中不同比例的激活,這反過來導致每個分支中不同的有效學習速率。這種規範化方案規避了這個問題。

我們在這個特徵歸一化之上放置一個標準的RPN,它由一個3×3卷積構成,使用與上一層相同數量的通道。然後將這個RPN的輸出用於預測錨定分數和迴歸器的另外兩個卷積層(詳見[2])。對於RP Nconv3,我們使用conv3圖層的特徵來預測邊界框。

我們對Ftrain數據集上的每個RPN進行微調,進行40000次迭代,初始學習率爲μ= 0.001,我們的錨點集A.30000次迭代後,學習率降低了γ= 0.1。然後,我們在不同的Ftestx數據集上評估訓練的RPN,同時只考慮單個錨點的輸出。因此,我們可以繪製不同feature map在預測給定大小的對象提議方面的效果。圖3顯示了這個實驗的結果。橫座標上的每個點表示使用相應的Ftest x數據集進行實驗的結果,而縱座標則將該實驗的性能報告爲MABO

3顯示了對於小對象而言,conv5feature map提供的結果明顯低於conv3conv4feature map生成的結果。

另一個需要觀察的是早期的feature map爲每個錨點提供比conv5feature map更多的本地化響應。 當物體尺寸遠離理想anchors尺寸時,這表現爲陡峭的性能下降。 這是所有檢查對象大小的一致模式:即使是中等大小的邊長在80像素和100像素之間的對象,也可以通過conv4特徵圖更好地預測。 但是,只有在對象大小與錨點大小緊密匹配的情況下,這纔是真實的。 conv5特性映射能夠在更大範圍的對象大小上提供更穩定的性能。

 

3.2. ROI Classification of small objects

在識別ROI後,更快的RCNN爲每個ROI和每個class預測評分和邊界框迴歸。在原始方法中,此階段重新使用之前計算的用於生成region proposalconv5 feature mapROI-Pooling [1]層使用網絡的下采樣因子將由RPN標識的ROI座標投影到feature map上。特徵圖的相應區域被轉換成具有預定空間分辨率(通常7×7)的固定維度表示。然後將這些特徵表示中的每一個都輸入到幾個完全連接的層中,以進行分類和類特定的邊界框迴歸。

我們根據對象大小對分類階段的表現進行分析,這與我們對RPN的分析類似。與RPN不同的是,每個錨點憑藉其大小和重疊標準自我選擇適當的訓練示例,分類階段確實具有此屬性。因此,我們需要注意訓練集中的大小分佈。

   對於本文的範圍,我們感興趣的是每個功能地圖可以爲特定對象大小提供的最大性能。爲了避免尺寸分佈的任何影響,理想情況下,我們希望爲每個測試集Ftestx提供單獨的訓練集。爲了減少訓練工作量,我們將多種尺寸組合成單個訓練集。爲此,我們生成四個訓練集Ftrainab,其中a表示最小對象大小,b表示最大對象大小作爲對象區域的平方根。我們選擇(ab)∈{20px60px),(40px80px),(60px100px),(80px120px}來充分覆蓋FlickrLogo數據集中的小對象範圍(圖1)。

與我們對RPN的評估類似,我們生成三個分類管道版本:CLSconv3CLSconv4CLSconv5CLSconv5在體系結構上與[1]中描述的缺省管道相同。另外兩個網絡是相似的:它們僅基於它們所基於的特徵映射和第3章中描述的規範化層不同。在訓練期間,我們僅訓練完全連接的層,並將這些結果與網絡進行比較,其中所有層經過優化(CLSconv5(全部))。

我們在所有訓練集Ftrain上訓練每個網絡,並在所有測試集Ftest x中評估它們的平均平均精度(mAP),其中axb。 由於訓練集之間的對象大小範圍相互重疊,我們爲每個對象大小x獲得多個mAP- 由測試集Ftestx表示。 我們採用每個版本的分類類別的最大mAP。 爲了消除對分類性能的不利建議的影響,我們爲我們的實驗假設了一個完美的RPN,並使用ground truth邊界框作爲對象建議評估我們的網絡。

4顯示了這個實驗的結果。不出所料,小型對象實例的分類性能通常會下降。 CLSconv5網絡的性能比CLSconv3網絡的性能下降更強烈。 但是,當網絡的所有層都進行了優化時,conv5功能可以在所有對象大小上提供良好的性能。

   因此,我們得出這樣的結論:原則上分類階段對於僅給出低分辨率feature maps的小物體進行分類具有類似的困難。 但是,在給出選項時,filter可以相應地進行調整。

 

Fig4:按照CLS(classfication pipeline)大小分類,對於小目標,conv5性能明顯下降。而conv5融合了所有特徵之後能夠適應大小不一的所有尺寸的目標。

 

 

4 特徵融合

我們已經表明,淺層的feature map可以幫助改進小型對象實例的region proposal。此外,我們已經表明,如果網絡的所有層都在進行優化,則分類階段不會從更高分辨率的特徵映射中受益。我們希望利用我們的觀察結果來證明它們在真實世界的數據集中的優勢。爲此,我們建議對R-CNN快速流水線進行直接擴展:

因此,我們爲faster R-CNN提出以下修改後的流水線:從conv4特徵映射開始,將額外分支添加到原始網絡體系結構中。該分支由標準化層(如第3節所述)和一個單獨的RPN組成,負責預測標度爲A0 = {32,45,64}anchors的子集。

網絡的主要分支保持不變。 所有其他anchors使用conv5feature map進行預測。在conv5特性上存在一個單獨的分類管道。就像faster R-CNN一樣,網絡可以被調整到最終。

在測試期間,每個分支中生成的提案都受到其自身非最大抑制的影響。 兩個分支機構的提案然後合併,並進行聯合非最大限制壓制。 所有提案的數量都限制在n = 2000之內,並納入分類階段。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章