精確的目標檢測中定位置信度的獲取

Borui Jiang∗1,3, Ruixuan Luo∗1,3, Jiayuan Mao∗2,4,
Tete Xiao1,3, and Yuning Jiang4
1School of Electronics Engineering and Computer Science, Peking University
2ITCS, Institute for Interdisciplinary Information Sciences, Tsinghua University
3Megvii Inc. (Face++)
4Toutiao AI Lab
{jbr, luoruixuan97, jasonhsiao97}@pku.edu.cn,
[email protected], [email protected]

Abstract.基於現代美國有線電視新聞網的目標檢測器依賴於包圍盒迴歸和非最大抑制來定位對象。雖然類標籤的概率自然地反映了分類的可信度,但缺乏定位的可信度。這使得適當的局部邊界盒在迭代迴歸過程中退化,甚至在NMS過程中被抑制。本文提出了利用IoU網絡學習來預測每個檢測到的邊界盒與匹配地面真實性之間的IoU。該網絡獲得了這種定位置信度,通過保留精確定位的包圍盒,改進了NMS算法。在此基礎上,提出了一種基於優化的邊界盒優化方法,以預測的IoU爲目標。在MS-COCO數據集上進行的大量實驗證明了IoU網絡的有效性,以及它與多種最新目標檢測器的兼容性和適應性。關鍵詞:目標定位,包圍盒迴歸,非最大抑制

1  Introduction

目標檢測是一系列下游視覺應用的先決條件,例如實例分割[19,20]、人體骨架[27]、人臉識別[26]和高級基於對象的推理[30]。目標檢測結合了目標分類和目標定位。現代的目標檢測器大多基於兩階段框架[9,8,22,16,10],其中目標檢測被描述爲一個多任務學習問題:1)區分前景目標和背景,並給它們分配適當的類標籤;2)通過最大化相交(IOU)或檢測結果與地面實況之間的其它度量來回歸一組使對象本地化的係數。最後,通過非最大抑制(NMS)過程去除冗餘邊界盒(在同一對象上的重複檢測)。

(a)分類置信度和定位精度不一致的示範案例。黃色邊界框表示地面真實,紅色和綠色邊界框都是FPN[16]的檢測結果。定位置信度由提出的IoU網絡計算。使用分類置信度作爲排序度量將導致在傳統的NMS過程中錯誤地消除精確定位的邊界框(綠色)。定量分析見第2.1節

 

圖1:缺乏定位置信度帶來的兩個缺點的可視化。示例選自MS-COCO minival[17]。 

在這種檢測管道中,分類和定位的解決方法是不同的。具體地說,給定一個方案,當每個類標籤的概率自然地充當該方案的“分類置信度”時,包圍盒迴歸模塊找到該方案的最佳變換,以最適合基本事實。然而,“本地化信心”在這個循環中是缺失的。這帶來了兩個缺點。(1)首先,對重複檢測的抑制忽略了定位精度,而分類分數通常被用作對方案進行排序的度量。在圖1(a)中,我們展示了一組情況,其中檢測到的具有更高分類可信度的邊界框與相應的地面真值具有較小的重疊。類似於格雷沙姆所說的“劣幣驅逐良幣”的說法,分類可信度和定位精度之間的偏差可能導致精確定位的包圍盒被不太精確的包圍盒所抑制過程。(2)第二,局部化置信度的缺失使得廣義包圍盒迴歸難以解釋。以文獻[3]爲例,研究了迭代包圍盒迴歸的非單調性。也就是說,如果應用多次,邊界框迴歸可能會退化輸入邊界框的本地化(如圖1(b)所示)。本文介紹了IoU網絡它可以預測檢測到的邊界盒及其對應的地面真值盒之間的IoU,使網絡感知到與分類模塊相似的定位準則。這個簡單系數爲我們提供瞭解決上述問題的新方法:

一。IoU是定位精度的自然標準。我們可以用預測的IoU作爲NMS中的排名關鍵字來代替分類置信度。這種技術,即IoU引導的NMS,有助於消除由誤導性分類可信度引起的抑制失敗。2。我們提出了一個基於優化的邊界盒求精過程,與傳統的基於迴歸的方法相同。在推理過程中,將預測的IoU作爲優化目標,並作爲定位置信度的可解釋指標。提出的精確的RoI池層使我們能夠通過梯度上升來解決IoU優化問題。結果表明,與基於迴歸的方法相比,基於優化的包圍盒求精方法對定位精度的提高是單調的。該方法完全兼容並可集成到各種基於CNN的檢測器中[16,3,10]。

2深入研究對象定位

首先,我們探討了目標定位中的兩個缺點:分類置信度與定位精度的偏差和非單調包圍盒迴歸。標準FPN[16]探測器以MS-COCO trainval35k爲基線進行訓練,並在minival上進行測試。

2.1分類和定位精度偏差

爲了消除重複的邊界盒,自[4]以來,NMS一直是大多數目標檢測器中不可或缺的組成部分。NMS以迭代的方式工作。在每次迭代中,選擇具有最大分類置信度的邊界框,並使用預定義的重疊閾值消除其相鄰框。在軟NMS[2]算法中,盒子消除被置信度的降低所代替,從而導致較高的召回率。近年來,人們提出了一套基於學習的算法來代替無參數的網絡管理系統和軟網絡管理系統。[24]計算所有邊界框的重疊矩陣,並執行關聯傳播聚類以選擇簇的樣本作爲最終檢測結果。[11]提出了GossipNet,一種基於包圍盒和分類置信度的NMS後處理網絡。[12]提出了一種端到端網絡學習檢測到的邊界框之間的關係。然而,這些基於參數的方法需要更多的計算資源,這限制了它們的實際應用。

 

在廣泛採用的NMS方法中,分類置信度被用來對邊界框進行排序,這可能是一個問題。我們將所有檢測到的邊界框在NMS之前的分類置信度分佈可視化,如圖2(a)所示。X軸是檢測到的盒子與其匹配的地面真實之間的IOU,而Y軸表示其分類置信度。Pearson相關係數表明,定位精度與分類置信度沒有很好的相關性。

我們將此歸因於大多數基於CNN的目標檢測器用於區分前景(正)樣本和背景(負)樣本。如果檢測到的邊界框在訓練過程中被認爲是正的,如果它的IoU與地面真值邊界框之一大於閾值Ω列。這個目標可能與定位精度不一致。圖1(a)顯示了具有較高分類置信度的邊界框具有較差本地化的情況。

回想一下,在傳統的NMS中,當存在對單個對象的重複檢測時,將保持具有最大分類置信度的邊界框。然而,由於定位誤差的存在,在NMS中可能會抑制定位效果較好的包圍盒,導致目標定位效果較差。圖3定量地顯示了NMS後正邊界框的數量。邊界框按其IoU和匹配的地面真相分組。對於多個匹配相同的檢測真實框

事實上,只有IoU最高的才被認爲是積極的。因此,沒有NMS可以被認爲是正邊界框數量的上限。可以看出,傳統的NMS方法由於缺乏定位置信度,使得IoU>0.9的檢測包圍盒被抑制了一半以上,從而降低了檢測結果的定位質量。 

圖3:NMS之後的正邊界框的數量,按其IoU與匹配的地面真值分組。在傳統的NMS(blue bar)中,由於分類置信度和定位精度的偏差,很大一部分精確定位的包圍盒被錯誤地抑制,而IoU引導的NMS(yellow bar)則保留了更精確的定位包圍盒。

2.2非單調包圍盒迴歸

一般來說,單目標定位可以分爲兩類:基於包圍盒的方法和基於分段的方法。基於分段的方法[19,20,13,10]旨在爲每個實例生成像素級分段,但不可避免地需要額外的分段註釋。這項工作的重點是基於邊界框的方法。單目標定位通常被定義爲一個包圍盒迴歸任務。其核心思想是網絡直接學習將邊界框轉換(即縮放或移動)到其指定目標。在[9,8]中,應用線性迴歸或完全連接層來細化由外部預處理模塊(例如,選擇性搜索[28]或邊緣框[33])生成的對象建議的本地化。更快的R-CNN[23]提出了區域建議網絡(RPN),其中僅使用預定義的錨來訓練端到端的對象檢測器。[14,32]利用無錨、完全卷積的網絡來處理對象尺度的變化。同時,在文獻[29]中提出了斥力損失的概念,用以檢測具有人羣遮擋的物體。由於邊界盒迴歸的有效性和簡單性,它已成爲大多數基於CNN的檢測器的重要組成部分。廣泛的下游應用,如跟蹤和識別,將受益於精確定位邊界框。這就對提高定位精度提出了要求。在一系列的目標檢測器[31,7,6,21]中,細化後的盒將再次輸入到邊界盒迴歸器中,並再次進行細化。此過程執行了多次,即迭代包圍盒迴歸。更快的R-CNN[23]首先執行邊界框迴歸兩次,以將預定義的錨轉換爲最終檢測到的邊界框。[15]提出了一種迭代的組遞歸學習方法考慮到多個方案之間的全局相關性,優化檢測結果並最小化目標方案與地面真實值之間的偏移量。G-CNN是在[18]中提出的,它從圖像上的多尺度規則網格開始,迭代地將網格中的框推向地面真相。然而,如文獻[3]所述,應用兩次以上的包圍盒迴歸並沒有帶來進一步的改進。[3]將此歸因於多步包圍盒迴歸中的分佈不匹配,並通過多步包圍盒迴歸中的重採樣策略加以解決。 

實驗證明了基於FPN和級聯R-CNN框架的迭代包圍盒迴歸算法的性能。每次迭代後結果的平均精度(AP)分別如圖4(a)和圖4(b)中的藍色曲線所示。圖4中的AP曲線表明,對於迭代包圍盒迴歸,隨着迭代次數的增加,定位精度的提高是非單調的。非單調性和不可解釋性給應用帶來了困難。此外,如果沒有對檢測到的邊界框的定位置信度,我們就無法對細化進行細粒度控制,例如對不同的邊界框使用自適應的迭代次數。

圖4:基於優化的基於v.s.迴歸的BBox優化。(a)FPN中的比較。當迴歸迭代應用時,檢測結果的AP首先得到改善,但在以後的迭代中下降很快。(b)Cascade R-CNN的露營活動。迭代0、1和2表示級聯R-CNN中的第一、二和三個迴歸階段。對於迭代i≥3,我們使用第三階段的迴歸器來細化邊界框。經過多次迭代,AP略有下降,而基於優化的方法使AP進一步提高了0.8%。

3  IoU-Net

爲了定量分析IoU預測的有效性,我們在第3.1節中首先介紹了訓練IoU預測因子所採用的方法。在第3.2節和第3.3節中,我們展示瞭如何爲NMS和邊界框使用IoU預測器分別是精益求精。最後,在第3.4節中,我們將IOU預測器集成到現有的對象檢測器中,例如FPN(16)。 

圖5:第3.4節描述的提議的IoU網的完整架構。輸入圖像首先輸入到FPN主幹網中IoU預測器從FPN骨幹網獲取輸出特性。我們將RoI池層替換爲第3.3節中描述的PrRoI池層。IoU預測器與R-CNN分支具有相似的結構。虛線框中標記的模塊構成一個獨立的IoU網。 

3.1學習預測IoU

如圖5所示,IoU預測器從FPN獲取視覺特徵,並估計每個邊界框的定位精度(IoU)。我們生成用於訓練IoU網絡的邊界框和標籤,方法是增加groundtruth,而不是接受RPNs的建議。具體來說,對於訓練集中的所有地面真值邊界框,我們使用一組隨機參數對其進行手動變換,得到一個候選邊界框集。然後,我們從該候選者中移除具有IoU小於Ω列=0.5且匹配地面真相的邊界框。我們統一地從這個候選集w.r.t.的IoU中抽取訓練數據。這個數據生成過程在經驗上爲IoU網絡帶來了更好的性能和健壯性。對於每個邊界框,特徵都是從FPN的輸出中提取出來的,並帶有建議的精確RoI池層(見第3.3節)。然後將這些特徵輸入到兩層前饋網絡中進行IoU預測。爲了獲得更好的性能,我們使用類感知的IoU預測器。

IOU預測器與大多數現有的基於ROI的檢測器兼容。獨立IoU預測器的準確性如圖2所示。由於訓練過程獨立於特定的檢測器,因此它對輸入分佈的變化(例如,當與不同的檢測器協作時)具有魯棒性。在後面的章節中,我們將進一步演示如何在一個完整的檢測管道中(即,與RPNs和R-CNN聯合)聯合優化這個模塊。

3.2 IoU引導的NMS

我們使用一種新的IoU引導的NMS方法來解決分類置信度和定位精度之間的偏差,該方法將分類置信度和定位置信度(IoU的估計)分開。簡而言之,我們使用預測的IoU而不是分類置信度作爲邊界框的排名關鍵字。與傳統的NMS類似,將選擇具有最高IoU和地面真值的盒子,以消除具有大於給定閾值ΩNMS的重疊的所有其他盒子。爲了確定分類得分,當一個框i消除框j時,我們用si=max(si,sj)更新分類置信度siof框i。這個過程也可以解釋爲一個置信聚類:對於一組匹配同一地面真值的包圍盒,我們對類標籤進行最置信預測。此算法的psuedo代碼可以在算法1中找到。IoU引導的NMS解決了分類置信度和定位精度之間的偏差。定量結果表明,我們的方法優於傳統的NMS和其他變體,如軟NMS[2]。使用IoU引導的NMS作爲後處理器進一步推動了幾種最新目標探測器的性能。

3.3邊界框優化作爲優化程序

邊界盒求精問題可以用數學方法表示爲尋找最佳c*s.t.:

 

其中boxDet爲檢測到的邊界框,boxGt爲(目標)地面真值邊界框,transform爲以c爲參數的邊界框變換函數,對給定的邊界框進行變換。crit是測量兩個邊界框之間距離的標準。在最初的快速R-CNN[5]框架中,crit被選爲對數尺度上座標的平滑L1距離,而在[32]中,crit被選爲兩個邊界框之間的-ln(IoU)。

基於迴歸的算法使用前饋神經網絡直接估計最優解c*。然而,迭代包圍盒迴歸方法容易受到輸入分佈變化的影響[3],並且可能導致非單調局部化改進,如圖4所示。爲了解決這些問題,我們提出了一種基於優化的包圍盒優化方法,利用IoU網絡作爲魯棒定位精度(IoU)估計。此外,IoU估計器可以作爲一個早期停止條件來實現具有自適應步長的迭代求精。

IoU網直接估計IoU(boxdet,boxgt)。而提出的精確RoI池層可以計算IoU w.r.t.的梯度。

 

圖6:RoI池、RoI對齊和PrRoI池的圖示。

箱座標法,可以直接用梯度上升法求出方程1的最優解。在算法2中,將IOU的估計視爲優化目標,我們迭代地用計算的梯度細化包圍盒座標並最大化檢測邊界框與其匹配的地面真實之間的IOU。此外,預測的IoU是每個包圍盒上定位置信度的可解釋指標,有助於解釋所執行的轉換。

在實現中,在算法2第6行中顯示,我們手動縮放漸變,並將座標與該軸上的包圍盒的大小(例如(例如,我們按寬度(bj)放大∇x1))。這相當於在對數標度座標(x/w,y/h,logw,logh)中執行優化,如[5]所示。我們還採用了一步包圍盒迴歸來初始化座標。 

精確的投資回報池。我們引入精確的RoI池(簡稱PrRoI池),爲我們的邊界框優化*提供動力。它避免了座標的任何量化,並且在邊界框座標上具有連續的梯度。給定RoI/PrRoI池之前的特徵映射F(例如ResNet-50中的Conv4),讓wi、jbe將特徵映射到特徵映射上的一個離散位置(i、j)。使用雙線性插值,離散特徵圖可以在任何連續座標(x,y)下被視爲連續的:

式中,是插值係數。然後將RoI的bin表示爲,其中(x1,y1)和(x2,y2)是左上角和右下角的連續座標 

我們通過計算二階積分來執行給定bin和特徵映射F的池(例如,平均池):

 

爲了更好的理解,我們在圖6中可視化了RoI池、RoI對齊[10]和我們的PrRoI池:在傳統的RoI池中,需要首先對連續座標進行量化,以計算bin中激活的總和;爲了消除量化誤差,在RoI對齊中,N=4個連續點在bin中採樣,表示爲(ai,bi),並在採樣點上執行池。與RoI-Align(N是預先定義的,而不是自適應的w.r.t.)不同,本文提出的PrRoI池直接基於連續特徵映射計算二階積分。

此外,根據方程3中的公式,PrPool(Bin,F)是Bin座標的可微w.r.t。例如,PrPool(B,F)w.r.t.x1的偏導數可以計算爲:

 

PrPool(bin,F)w.r.t.其他座標的偏導數可以用同樣的方法計算。由於我們避免了任何量化,PrPool是連續可微的

3.4聯合訓練 

IoU預測器可以集成到標準的FPN管道中,用於端到端的訓練和推理。爲了清楚起見,我們將主幹線表示爲用於圖像特徵提取的CNN架構,並將頭部表示爲應用於單個roi的模塊。如圖5所示,IoU網使用ResNet FPN[16]作爲主幹,它具有自頂向下的架構來構建一個特性金字塔。FPN根據roi的尺度,從特徵金字塔的不同層次提取roi的特徵。原始的RoI池層被精確的RoI池層所代替。對於網絡頭部,IoU預測器與R-CNN分支(包括分類和邊界盒迴歸)基於來自主幹的相同視覺特徵並行工作。我們從ImageNet上預先訓練的ResNet模型初始化權重[25]。所有新層都用標準差爲0.01或0.001的零均值高斯初始化。我們使用平滑-L1損失訓練IoU預測器。IoU預測器的訓練數據按照第3.1節的描述在訓練批的圖像中單獨生成。IoU標籤是標準化的s.t.值分佈在[-1,1]。

輸入圖像被調整爲沿着短軸具有800 px,沿着長軸最大爲1200 px。分類與迴歸分支取512,RPN中每個圖像的ROI

我們用一批16號的來訓練。該網絡經過160k次迭代優化,學習率爲0.01,經過120k次迭代後,學習率降低了10倍。我們還通過將第一個10公里迭代的學習率設置爲0.004來預熱訓練。我們使用1e-4的重量衰減和0.9的動量。在推理過程中,我們首先對初始座標應用包圍盒迴歸。爲了加快推理速度,我們首先在所有檢測到的邊界框上應用IoU引導的NMS。使用基於優化的算法進一步細化了100個分類置信度最高的包圍盒。我們設置λ=0.5爲步長,Ω1=0.001爲早期停止閾值,Ω2=-0.01爲局部退化容限,T=5爲迭代次數。

4 實驗

我們在80類MS-COCO檢測數據集上進行了實驗[17]。在[1,16]之後,對模型進行80k個訓練圖像和35k個驗證圖像(trainval35k)的聯合訓練,並對一組5k個驗證圖像(minival)進行評估。爲了驗證所提出的方法,在第4.1節和第4.2節中,使用目標檢測器分別訓練獨立的IoU網絡(沒有R-CNN模塊)。將IoU引導的網絡管理系統和基於優化的包圍盒優化算法應用於檢測結果。

4.1 IoU引導的NMS

表1總結了不同NMS方法的性能。當軟NMS保留更多的邊界框時(沒有真正的“抑制”),IoU引導的NMS通過改進檢測到的邊界框的定位來改善結果。因此,IoU引導的NMS在高IoU指標(如AP90)上的性能明顯優於基線。通過分析不同IoU閾值下NMS算法的召回行爲,深入研究了不同算法的行爲。原始檢測到的邊界框由ResNet50 FPN生成,不帶任何NMS。隨着定位精度要求的提高,IoU制導NMS與其它方法的性能差距越來越大。特別是,匹配IoUΩ測試時的召回率=0.9在傳統NMS之後下降到18.7%,而IoU NMS達到28.9%,無NMS“上限”爲39.7%。

4.2基於優化的包圍盒優化

所提出的基於優化的包圍盒優化方法與大多數基於CNN的目標檢測器[16,3,10]兼容,如表2所示。在獨立IoU網絡的原始管道之後應用邊界盒求精,通過更精確地定位對象,進一步提高了性能。改進後的算法進一步提高了ap90 2.8%和整體AP 0.8%,即使級聯R-CNN具有三級包圍盒迴歸器。

表1:IoU引導的NMS與其他NMS方法的比較。通過保留精確定位的包圍盒,IoU引導的NMS在高匹配IoU閾值(如AP90)的AP中顯示出顯著的改進。 

 圖7:不同的NMS方法在不同IoU閾值下的召回曲線,用於將檢測到的邊界框與地真值匹配。沒有提供NMS(沒有框被抑制)作爲召回的上限。提出的IoU-NMS具有更高的召回率,有效地縮小了高IoU閾值(如0.8)時的差距。

表2:基於優化的包圍盒細化進一步提高了幾種基於CNN的目標檢測器的性能。

4.3 聯合訓練

IoU網絡可以與目標檢測框架並行進行端到端優化。我們發現在網絡中加入IoU預測器有助於網絡學習更多的區分特徵,ResNet50 FPN和resnet101fpn的AP分別提高了0.6%和0.4%。IoU引導的NMS和邊界盒優化進一步推動了性能的提高。與基線38.5%相比,ResNet101 FPN的AP爲40.6%(提高了2.1%)。表3顯示了推斷速度,表明IoU網在可容忍的計算開銷下提高了檢測性能。

表3:MS-COCO的最終實驗結果。IoU Net表示嵌入IoU預測器的ResNet-FPN。在AP中,我們將FPN基線提高約2%。 

表4:單個TITAN X GPU上多個目標探測器的推斷速度。這些型號共享同一骨幹網ResNet50-FPN。輸入分辨率爲1200x800。所有超參數都設置爲相同。

我們主要將表3中AP50的不良結果歸因於IoU估計誤差。當邊界框的IoU與groundtruth較低時,它們的外觀變化較大。如圖2(b)所示,對於IoU較低的盒子,IoU估計變得不太準確。這會降低下游細化和抑制的性能。實驗結果表明,在訓練過程中,採用低IoU的多包圍盒抽樣等技術,可以部分解決這一問題。

5結論

本文提出了一種新的網絡結構,即IoU網,以實現目標的精確定位。通過學習用匹配的地面真值預測IoU,IoU網獲得檢測到的邊界盒的“定位置信度”。這使得IoU引導的NMS程序能夠防止精確定位的邊界框被抑制。提出的IoU網絡具有直觀性,可以很容易地集成到一組廣泛的檢測模型中,以提高其定位精度。在MS-COCO上的實驗結果證明了該方法的有效性和應用潛力。指出了現代檢測管道分類和定位可信度的偏差。我們還對邊界盒求精問題提出了一種新的優化觀點,所提出的方法優於基於迴歸的方法。我們希望這些新穎的觀點能爲以後的目標檢測工作提供一些啓示。

References

1. Bell, S., Lawrence Zitnick, C., Bala, K., Girshick, R.: Inside-outside net: Detecting
objects in context with skip pooling and recurrent neural networks. In: Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2874–
2883 (2016)
2. Bodla, N., Singh, B., Chellappa, R., Davis, L.S.: Improving object detection with
one line of code. arXiv preprint arXiv:1704.04503 (2017)
3. Cai, Z., Vasconcelos, N.: Cascade r-cnn: Delving into high quality object detection.
arXiv preprint arXiv:1712.00726 (2017)
4. Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In:
Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer
Society Conference on. vol. 1, pp. 886–893. IEEE (2005)
5. Doll´ ar, P., Appel, R., Belongie, S., Perona, P.: Fast feature pyramids for object
detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 36(8),
1532–1545 (2014)
6. Gidaris, S., Komodakis, N.: Object detection via a multi-region and semantic
segmentation-aware cnn model. In: Proceedings of the IEEE International Confer-
ence on Computer Vision. pp. 1134–1142 (2015)
7. Gidaris, S., Komodakis, N.: Attend refine repeat: Active box proposal generation
via in-out localization. arXiv preprint arXiv:1606.04446 (2016)
8. Girshick, R.: Fast r-cnn. In: The IEEE International Conference on Computer
Vision (ICCV) (December 2015)
9. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate
object detection and semantic segmentation. In: The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR) (June 2014)
10. He, K., Gkioxari, G., Doll´ ar, P., Girshick, R.: Mask r-cnn. In: The IEEE International
Conference on Computer Vision (ICCV) (2017)
11. Hosang, J., Benenson, R., Schiele, B.: Learning non-maximum suppression. arXiv
preprint (2017)
12. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y.: Relation networks for object detection.
arXiv preprint arXiv:1711.11575 (2017)
13. Hu, H., Lan, S., Jiang, Y., Cao, Z., Sha, F.: Fastmask: Segment multi-scale object
candidates in one shot. In: Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. pp. 991–999 (2017)
14. Huang, L., Yang, Y., Deng, Y., Yu, Y.: Densebox: Unifying landmark localization
with end to end object detection. arXiv preprint arXiv:1509.04874 (2015)
15. Li, J., Liang, X., Li, J., Wei, Y., Xu, T., Feng, J., Yan, S.: Multi-stage object
detection with group recursive learning. IEEE Transactions on Multimedia (2017)
16. Lin, T.Y., Doll´ ar, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature
pyramid networks for object detection. In: The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR) (2017)
17. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll´ ar, P.,
Zitnick, C.L.: Microsoft coco: Common objects in context. In: European conference
on computer vision. pp. 740–755. Springer (2014)
18. Najibi, M., Rastegari, M., Davis, L.S.: G-cnn: an iterative grid based object de-
tector. In: Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. pp. 2369–2377 (2016)
19. Pinheiro, P.O., Collobert, R., Doll´ ar, P.: Learning to segment object candidates. In:
Advances in Neural Information Processing Systems. pp. 1990–1998 (2015)

20. Pinheiro, P.O., Lin, T.Y., Collobert, R., Doll´ ar, P.: Learning to refine object
segments. In: European Conference on Computer Vision. pp. 75–91. Springer (2016)
21. Rajaram, R.N., Ohn-Bar, E., Trivedi, M.M.: Refinenet: Iterative refinement for
accurate object localization. In: Intelligent Transportation Systems (ITSC), 2016
IEEE 19th International Conference on. pp. 1528–1533. IEEE (2016)
22. Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detec-
tion with region proposal networks. In: Advances in neural information processing
systems. pp. 91–99 (2015)
23. Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object
detection with region proposal networks. In: Cortes, C., Lawrence, N.D., Lee, D.D.,
Sugiyama, M., Garnett, R. (eds.) Advances in Neural Information Processing Sys-
tems 28, pp. 91–99. Curran Associates, Inc. (2015), http://papers.nips.cc/paper/
5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.
pdf
24. Rothe, R., Guillaumin, M., Van Gool, L.: Non-maximum suppression for object
detection by passing messages between windows. In: Asian Conference on Computer
Vision. pp. 290–306. Springer (2014)
25. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,
Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: ImageNet Large
Scale Visual Recognition Challenge. International Journal of Computer Vision
(IJCV) 115(3), 211–252 (2015). https://doi.org/10.1007/s11263-015-0816-y
26. Taigman, Y., Yang, M., Ranzato, M., Wolf, L.: Deepface: Closing the gap to human-
level performance in face verification. In: Proceedings of the IEEE conference on
computer vision and pattern recognition. pp. 1701–1708 (2014)
27. Toshev, A., Szegedy, C.: Deeppose: Human pose estimation via deep neural networks.
In: Proceedings of the IEEE conference on computer vision and pattern recognition.
pp. 1653–1660 (2014)
28. Uijlings, J.R., Van De Sande, K.E., Gevers, T., Smeulders, A.W.: Selective search
for object recognition. International journal of computer vision 104(2), 154–171
(2013)
29. Wang, X., Xiao, T., Jiang, Y., Shao, S., Sun, J., Shen, C.: Repulsion loss: Detecting
pedestrians in a crowd. arXiv preprint arXiv:1711.07752 (2017)
30. Wu, J., Lu, E., Kohli, P., Freeman, W.T., Tenenbaum, J.B.: Learning to see physics
via visual de-animation. In: Advances in Neural Information Processing Systems
(2017)
31. Yang, B., Yan, J., Lei, Z., Li, S.Z.: Craft objects from images. arXiv preprint
arXiv:1604.03239 (2016)
32. Yu, J., Jiang, Y., Wang, Z., Cao, Z., Huang, T.: Unitbox: An advanced object
detection network. In: Proceedings of the 2016 ACM on Multimedia Conference.
pp. 516–520. ACM (2016)
33. Zitnick, C.L., Doll´ ar, P.: Edge boxes: Locating object proposals from edges. In:
European Conference on Computer Vision. pp. 391–405. Springer (2014)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章