A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

這篇論文作者在Fast RCNN的基礎上,運用對抗生成網絡GAN的思想,加入了兩個對抗網絡來加強Fast RCNN算法的魯棒性,下面的內容是這篇文章的翻譯,我已經修改過大部分的內容使得讀起來比較通順,接下來準備研究代碼,根據作者的思想看看能否加入一點自己的東西。

代碼:https://github.com/xiaolonw/adversarial-frcnn

原文地址:https://arxiv.org/pdf/1704.03414.pdf

由於圖插不進去,各位可以參照原文中的圖來進行論文的理解


A-Fast-RCNN:Hard Positive Generation via Adversary for Object Detection

經過對抗的生成“難”正樣本的目標檢測算法

XiaolongWang Abhinav Shrivastava Abhinav Gupta

TheRobotics Institute, Carnegie Mellon University

摘要

 

我們如何學習一個對於遮擋和形變不變的目標檢測器?我們目前的解決方案是使用數據驅動策略 - 收集在不同條件下具有目標實例的大規模數據集。我們的希望是最終的分類器可以使用這些例子來學習不變性。但是數據集真的能覆蓋所有的情況嗎?我們認爲,像分類一樣,遮擋和目標變形也遵循長尾理論。一些遮擋和變形非常罕見,幾乎不發生;但是我們想要學習對一個這樣的變形具有不變性的模型。在本文中,我們提出了一個替代解決方案。我們建議學習一個對抗網絡,生成具有遮擋和變形的樣本。對抗器的目標是生成讓目標檢測器難以進行分類的樣本。在我們的框架中,原始檢測器和對抗器都是以聯合的方式學習的。我們的實驗結果表明,與Fast-RCNN網絡相比,VOC07上的mAP升幅爲2.3%,VOC2012數據集有2.6%mAP提升。我們還發布了本文的代碼1。

 

引言

  目標檢測的目的是爲汽車等概念學習視覺模型,並使用該模型將圖像中的這些概念定位。這需要模型能夠對照明,變形,遮擋和其他類內變化具有不變性。處理這些不變性的標準範例是收集在不同條件下具有目標實例的大規模數據集。例如,COCO數據集[18]在不同的遮擋和變形下有超過10K個的汽車樣本。希望這些樣本捕捉到視覺概念的所有可能的變化,然後分類器可以有效地模擬對它們的不變性。我們相信,這是卷積網絡在目標檢測任務中取得如此成功的主要原因之一:它們能夠使用所有這些數據來學習不變性。

  然而,像目標類別一樣,我們認爲即使遮擋和變形也遵循長尾分佈(long-tail distribution)。也就是說,一些遮擋和變形是非常罕見的,它們在大規模數據集中發生的機會很小。例如,考慮如圖1所示的遮擋。我們注意到,一些遮擋比其他情況發生得更頻繁(例如,停車庫中其他汽車的遮擋比從冷氣機更頻繁)。類似地,動物中的一些變形是常見的(例如坐姿/站立姿態),而其他變形是非常罕見的。因此,我們如何學習這種罕見/不常見的遮擋和變形的不變性?在收集更大的數據集時,一個可能的解決方案是由於長尾統計數據而不太可能擴展。


圖1:我們認爲遮擋和變形均遵循長尾分佈。一些遮擋和變形是罕見的。在本文中,我們建議使用對抗網絡來產生具有遮擋和變形的示例,這將使目標檢測器難以分類。隨着目標檢測器越來越好,我們的對抗網絡就會適應。我們通過實證的這種對抗學習策略來提高檢測的準確性。

最近,生成圖像(或像素)已經有很多工作[3,8,26]。瞭解這些罕見的事件的一個可能方式是通過從尾部分佈進行採樣來生成逼真的圖像。然而,這不是一個可行的解決方案,因爲生成圖像需要這些罕見的事件的訓練樣本的開始部分。另一種解決方案是產生所有可能的遮擋和變形,並從中訓練物體檢測器。然而,由於變形和遮擋的空間是巨大的,這不是可擴展的解決方案。已經表明,使用所有樣本通常不是最佳解決方案[33,39],並且選擇硬例子更好。有沒有辦法可以產生具有不同遮擋和變形的“硬”正樣本,而不產生像素本身?

訓練另一個網絡的方法是:通過在空間上阻擋某些特徵圖或通過操作特徵響應來創建空間變形來創建難點的對抗器。這個對抗器會預測一下像Fast-RCNN這樣的檢測器會是什麼樣子,而Fast-RCNN又會適應自己的學習來分類這些對抗性的例子。這裏的主要思想是在卷積特徵空間中創建對抗性樣本,而不是直接生成像素,因爲後者是一個更難的問題。在我們的實驗中,與標準的Fast-RCNN管道相比,我們顯示出對抗性fast RCNN(A-Fast-RCNN)的性能的實質性改進。

 

相關工作

  近年來,在物體檢測領域取得了顯着的進步。這些近年來的成功建立在從ImageNet分類[2]的任務中學到的強大的深層特徵[16]。R-CNN [7]和OverFeat[30]目標檢測系統在PASCAL VOC [4]上以其令人印象深刻的結果引起了這一波學習潮流。並且近年來,出現了更有計算效率的版本,可以有效地訓練更大的數據集,如COCO [18]。例如,Fast-RCNN [6]爲不同的候選區域共享卷積層,以提供加速,faster RCNN [28]和R-FCN [15],在框架中引入區域生成網絡,從而實現完全端到端。基於Overfeat檢測器的滑動窗口範例,出現了其他計算效率高的方法,如YOLO [27],SSD [19]和DenseBox [12]。這些方法之間的比較在[11]中有所討論。

  最近的研究集中在開發更好的物體檢測系統的三個主要方向。第一個方向依賴於改變這些網絡的基礎架構。中心思想是使用更深層次的網絡不僅可以導致分類改進[2],而且可以導致目標檢測[4,18]性能提高。最近在這方面的一些工作包括ResNet [9],Inception-ResNet [38]和ResNetXt [43]。

第二個研究領域是使用上下文推理(充分利用各個卷積層的特徵),推理代理任務和其他自頂向下機制來改善目標檢測的表示[1,5,17,24,36,34,45]。例如,[32]使用分割作爲上下文目標檢測器的一種方法,並向初始層提供反饋。[1]使用跳過網絡架構,並結合上下文推理使用來自多層表示的特徵。其他方法包括使用自上而下的功能來整合上下文和更細的細節[17,24,34],這導致改進的檢測。

改進檢測系統的第三個方向是更好地利用數據本身。經常認爲,進來成功的目標檢測器是更好的視覺表示和大規模數據用於學習的可用性的產物。因此,第三類方法嘗試探索如何更好地利用數據來提高性能。一個例子是將硬實例挖掘納入到基於訓練區域的ConvNets的有效和高效的設置中[33]。發現訓練難點的其他例子包括[20,35,41]。

我們的工作遵循第三個研究方向,重點是更好地利用數據。然而,我們試圖生成樣本,而不是嘗試篩選數據來找到硬實例,而Fast-RCNN將很難對這些生成的樣本檢測/分類。我們限制新的正樣本生成器的空間來增加數據集中的現有樣本的遮擋和形變。具體來說,我們學習對抗網絡,試圖預測會導致Fast-RCNN錯誤分類的遮擋和變形。因此,我們的工作與近期在對抗學習中的很多工作有關[3,8,13,21,22,23,26,29,37]。例如,已經提出了用於改善圖像生成的對抗學習的技術[26]以及用於訓練更好的圖像生成模型[29]。[29]還強調,對抗學習可以改善半監督環境中的圖像分類。然而,這些作品中的實驗是針對比物體檢測數據集複雜度低的數據進行的,其中圖像生成結果顯着劣化。我們的工作也與最近關於機器人對抗性訓練的工作有關[25]。然而,我們不是用對抗來更好地監督,而是用對抗來生成一個硬的樣本。

 

目標檢測的對抗學習

我們的目標是學習對不同條件(如遮擋,變形和照明)都具有魯棒性的目標檢測器。我們假設即使在大規模數據集中,也不可能覆蓋所有潛在的遮擋和變形。我們採取替代方法,而不是嚴重依賴數據集或篩選數據來尋找硬實例。我們積極地生成讓目標象檢測器難以識別的樣本。然而,相比於在像素空間中生成數據,我們專注於一個有限的空間來產生:遮擋和變形。

圖2:我們的ASDN的網絡架構及其與FastRCNN方法的結合。 我們的ASDN網絡使用RoI池層提取的功能作爲輸入圖像補丁。 ASDN網絡比預測遮擋/退出掩碼,然後將其用於丟棄特徵值並傳遞到Fast-RCNN的分類塔。

在數學上,讓我們假設原始目標檢測器網絡被表示爲F(X),其中X是一個候選區域。檢測器給出兩個輸出,Fc其表示類別概率輸出,F l表示預測的邊界框位置。讓我們假設X的真值類是C,空間位置是L.我們的原始檢測器損失函數可以寫成,

其中第一項是SoftMax損失,第二項是基於預測的邊界框位置和真值框位置(僅前景類)的損失。

  讓我們假設對抗網絡被表示爲A(X),考慮到在圖像I上計算的特徵X,生成新的對抗樣本。檢測器的損失函數保持不變,因爲小批次現在包括較少的原始和一些對抗性樣本。

然而,對抗網絡必須學習預測會讓檢測器誤測的特徵。我們通過以下損失函數訓練這個對抗網絡,

因此,如果對抗網絡生成的特徵對於檢測器來說很容易進行分類,則對於對抗網絡而言,它們將獲得高損失。另一方面,如果在對抗特徵生成之後,對於檢測器是難以分類的,則對於檢測器而言,我們獲得高損失,並且對於對抗網絡的損失較低。

 

A-Fast-RCNN:算法細節

我們現在描述我們框架的細節。我們首先簡要介紹我們的基本檢測器Fast-RCNN。其次是描述對抗生成網絡的空間。特別是在本文中,我們專注於生成不同類型的遮擋和變形。 最後,在第5節中,我們描述了我們的實驗設置,並顯示了顯示基線顯着改進的結果。

1、 Fast RCNN回顧

  我們基於Fast-RCNN框架進行目標檢測[6]。Fast RCNN由兩部分組成:(i)用於特徵提取的卷積網絡;(ii)具有RoI池化層和幾個完全連接的層的RoI網絡,其輸出目標類別概率和邊界框。

給定輸入圖像,Fast-RCNN的卷積網絡將整個圖像作爲輸入,併產生卷積特徵圖作爲輸出。由於操作主要是卷積和最大池化 ,輸出特徵圖的空間尺寸將根據輸入的圖像大小而改變。給定特徵圖,RoI-pooling層用於將候選區域[40]投影到特徵空間上。RoI池化層將對每個目標候選區域進行裁剪並調整大小以生成一個固定大小的特徵向量。然後將這些特徵向量通過完全連接的層。完全連接的層的輸出是:(i)包括背景類的每個目標類的概率;和(ii)邊界框座標。

對於訓練,SoftMax損失和迴歸損耗分別應用於這兩個輸出,梯度通過所有層反向傳播以執行端到端學習。

2、 對抗網絡設計

  我們考慮了與Fast-RCNN(FRCN)檢測器競爭的對抗網絡生成的兩種特徵。第一種生成的類型是遮擋。在這裏,我們提出對抗空間丟棄網絡(ASDN),它學習如何封閉給定的目標,使得FRCN難以對其進行分類。我們在本文中考慮的第二種類型的生成是變形。在這種情況下,我們提出了對抗空間變換網絡(ASTN),它學習如何旋轉物體的“部件”,使其難以被檢測器識別。通過與這些網絡的競爭和克服障礙,FRCN學會以魯棒的方式處理物體遮擋和變形。請注意,所提出的網絡ASDN和ASTN在訓練期間與FRCN一起同時學習。聯合訓練能防止檢測器對固定生成的特徵產生過擬合。

相比於在輸入圖像上產生遮擋和變形,我們發現在特徵空間上的操作更有效率。因此,我們設計對抗網絡來修改特徵,使目標變得更難識別。請注意,這兩個網絡僅在訓練過程中應用才能改進檢測器。我們將首先單獨介紹ASDN和ASTN,然後在統一的框架中將它們組合在一起。

2.1 產生遮擋的對抗空間丟棄網絡(ASDN)

  我們提出一個對抗空間丟棄網絡(ASDN)來生成基於前景目標深層特徵上的遮擋。回想一下,在標準的Fast-RCNN管道中,我們可以在RoI-pooling層之後獲得每個前景目標候選區域的卷積特徵。我們使用這些基於區域的特徵作爲對抗網絡的輸入。對於一個目標的特徵,ASDN將嘗試生成一個掩碼,指示要丟棄的特徵的哪些部分(分配零),以便檢測器無法識別目標。

  更具體地,給定一個目標,我們提取具有尺寸d×d×c的特徵X,其中d是空間維度,c表示通道數(例如,AlexNet中的c= 256,d = 6)。給定這個特徵,我們的ASDN將預測掩碼M,其中M在閾值後d×d值爲0或1。在圖3(b)中,我們可以看出閾值之前的一些掩碼。 我們將Mij表示爲掩碼的第i行和第j列的值。類似地,Xijk表示特徵的第k通道的i,j位置處的值。如果Mij = 1,則我們刪除特徵圖X的相應空間位置中的所有通道的值,即Xijk = 0,∀k(表示任意的k通道)。


  網絡架構。我們使用標準的Fast-RCNN(FRCN)架構。我們使用ImageNet [2]預訓練的網絡來初始化我們的網絡。對抗網絡與FRCN共享卷積層和RoI池化層,然後使用其自己獨立的完全連接的層。請注意,由於我們正在優化兩個網絡以完成相反的任務,因此我們不會在ASDN中與Fast-RCNN共享參數。

  模型預訓練。在我們的實驗中,我們發現在使用它來改進Fast-RCNN之前,先訓練ASDN以生成遮擋物是重要的。由Faster RCNN檢測器[28]驅動,我們在這裏應用逐步訓練。 我們首先訓練我們的Fast-RCNN檢測器,不用ASDN進行10K次迭代。由於檢測器現在已經具有對數據集中目標的感知,我們在固定檢測器所有層的前提下訓練ASDN模型來生成遮擋。

  初始化ASDN網絡。爲了初始化ASDN網絡,給定具有大小爲d×d的特徵圖X,我們在特徵圖X上應用尺寸爲d/3×d/3的滑動窗口。我們通過將滑動窗口投影到原圖像來表示滑動窗口過程,參照圖3(a)。對於每個滑動窗口,我們將空間位置被覆蓋的所有通道的值丟棄掉,併爲候選區域生成一個新的特徵向量。然後將該特徵向量傳遞到分類層以計算損失。基於所有d/3×d/3滑動窗口的損失值,我們選擇損失最大的那個滑動窗口。該窗口然後被用來生成單個d×d掩碼(窗口位置爲1,其他像素爲0)。我們爲n個正的候選區域生成這些空間掩碼,併爲我們的對抗丟棄網絡獲得n對訓練樣本{(X1,M1),...,(Xn,Mn}),我們的想法是ASDN應該學會生成可以使檢測器網絡具有高損失的掩碼,在訓練ASDN時應用二進制交叉熵損失,

  其中Aij(Xp)表示對於輸入特徵圖Xp的(i,j)位置中ASDN網絡的輸出。我們訓練ASDN使用這個損失函數進行10K次迭代。我們得到網絡開始認識到哪一部分目標對於分類是重要的,如圖3(b)所示。還要注意,我們的輸出掩碼與[31]中提出的注意掩碼不同,它們使用注意機制來促進分類。在我們的實驗中,我們使用掩碼遮擋部分特徵,使分類變得更加困難。

圖4:組合ASDN和ASTN網絡的網絡架構。首先創建遮擋孕媽,然後旋轉通道以產生用於訓練的硬例子。

  閾值採樣。ASDN網絡生成的輸出不是二進制掩碼,而是連續的熱圖。相對於使用直接閾值,我們使用重要性抽樣來選擇頂部1/3像素進行掩碼生成。注意,採樣過程在訓練過程中包含樣本中的隨機性和多樣性。更具體地說,給定一個熱圖,我們首先選擇具有最高概率的頂部1/2像素,並隨機選擇其中的1/3像素來分配值1,其餘的2/3像素被設置爲0。

  聯合學習。對於到預訓練的ASDN和Fast-RCNN模型,我們在每次訓練迭代中共同優化這兩個網絡。對於訓練Fast-RCNN檢測器,在正向傳播期間,我們首先在RoI池化層之後的特徵上使用ASDN生成掩碼。我們通過採樣來生成二進制掩碼,並使用它們來刪除在RoI-pooling層之後的特徵中的值。然後,我們將修改後的特徵進行前向訓練並計算損失,並對檢測器進行端到端的訓練。 請注意,雖然我們的特徵被修改,但是標籤依然保持不變。通過這種方法,我們爲訓練檢測器生成了“更難”和更多樣化的樣本。

  對於ASDN的訓練,由於我們應用採樣策略將熱圖變換爲二進制掩碼,這是不可微分的,因此我們無法從分類損失中直接計算梯度。或者,我們採用REINFORCE [42]方法的靈感。 我們計算哪些二進制掩碼導致Fast-RCNN分類分數顯着下降。我們只使用那些硬樣本作爲真值來訓練對抗網絡,並使用公式1所示的損失函數。

2.2 對抗空間變換網絡(ASTN)

  我們現在介紹對抗空間變換網絡(ASTN)。我們的關鍵思想是在目標特徵上創建變形,並使檢測器的目標識別變得困難。我們的網絡建立在[14]中提出的空間變換網絡(STN)上。 在他們的工作中,STN被提出來使特徵變形,使分類更容易。而我們的網絡正在完成相反的任務。通過與我們的ASTN網絡競爭,我們可以訓練一個更好的對變形具有魯棒性的檢測器。

  STN概述。空間變換網絡[14]有三個部分:定位網絡,網格生成器和採樣器。對於輸入的特徵圖,定位網絡將估計要變形的量(例如,旋轉度,平移距離和縮放因子)。這些變量將被用作在特徵圖上的網格生成器和採樣器的輸入。輸出是變形的特徵圖。請注意,我們只需要瞭解定位網絡中的參數。STN的關鍵貢獻之一是使整個過程是可微分的,從而可以通過反向傳播直接優化分類目標的定位網絡。有關更多技術細節,請參閱[14]。

  對抗STN。在我們的對抗空間變換網絡中,我們專注於特徵圖旋轉。也就是說,在RoI-pooling層後給出了一個特徵圖作爲輸入,我們的ASTN將學習旋轉特徵圖,使其更難識別。我們的定位網絡由3個完全連接的層組成,其中前兩層使用來自ImageNet預訓練網絡的fc6和fc7層進行初始化,就像我們的對抗空間丟棄網絡一樣。

我們共同訓練ASTN和Fast-RCNN檢測器。對於訓練檢測器,類似於ASDN中的過程,RoI-pooling之後的特徵首先由ASTN進行轉換,並轉發到較高層以計算SoftMax損失。爲了訓練ASTN,我們優化它以便檢測器將前景目標分類爲背景類。與ASDN不同,由於空間變換是可以微分的,我們可以直接使用分類損失來對ASTN的定位網絡中的參數進行回溯和微調。

實現細節。在我們的實驗中,我們發現限制ASTN的旋轉度非常重要。否則,很容易將目標上下顛倒,這在大多數情況下是最難識別的。我們將旋轉度限制在順時針和逆時針10度以內。相比於沿同一方向旋轉所有特徵圖,我們將通道尺寸上的特徵圖劃分爲4個塊,併爲不同的塊估計4個不同的旋轉角度。由於每個通道對應於一種類型的激活特徵,旋轉通道分別對應於導致變形的不同方向的物體的旋轉部分。我們還發現,如果我們對所有特徵圖使用一個旋轉角度,ASTN將經常預測最大的角度。通過使用4個不同的角度而不是一個,我們增加了任務的複雜性,防止網絡預測瑣碎的變形。

2.3 對抗融合

  兩個對抗網絡ASDN和ASTN也可以在同一個檢測框架中組合在一起並聯合訓練。由於這兩個網絡提供不同類型的信息。通過同時競爭這兩個網絡,我們的檢測器變得更加健壯。

我們將這兩個網絡以順序的方式組合到Fast-RCNN框架中。 如圖4所示,在RoI-pooling之後提取的特徵映射首先進入到我們的ASDN,ASDN會刪除一些激活值。修改後的特徵由ASTN進一步變形。

 

實驗

  我們對PASCAL VOC 2007,PASCAL VOC 2012 [4]和MS COCO [18]數據集進行了實驗。 按照標準做法,我們對PASCAL VOC2007數據集進行大部分的燒蝕研究。我們還報告了我們在PASCAL VOC 2012和COCO數據集中的數據。最後,我們比較了我們的方法和在線硬樣本挖掘(OHEM)[33]的方法。

1 實驗設置

  PASCAL VOC。對於VOC數據集,我們使用'train-val'數據集訓練和'test'數據集進行測試。 我們遵循標準的Fast-RCNN [6]中的大部分設置進行訓練。我們應用SGD進行80K次迭代來訓練我們的模型。學習率從0.001開始,在60K次迭代後下降到0.0001。我們在訓練期間使用選擇性搜索產生候選區域[40]。

  MS COCO。對於COCO數據集,我們使用'train-val35k'數據集訓練和'minival'數據集進行測試。在訓練Fast-RCNN [6]時,我們應用SGD進行320K次迭代。學習率以0.001開始,280K次迭代後降至0.0001。對於目標候選區域,我們使用DeepMask候選區域[24]。

在所有的實驗中,我們的小批次的大小爲來自兩張圖片的256個候選區域。我們遵循Fast-RCNN的火炬實施[44]。通過這些設置,我們的基線數字略好於[6]中報道的數字。爲了防止Fast-RCNN對修改後的數據產生過擬合,我們在一個批次中提供一張沒有任何遮擋/變形的圖片並將我們的方法應用到批次中的另一張圖片。

2 PASCAL VOC 2007結果

  我們報告了在訓練Fast-RCNN期間使用ASTN和ASDN的結果,參照表1。對於AlexNet架構[16],我們實施的基線達到57.0%的mAP。基於此設置,我們與ASTN模型的聯合學習達到58.1%,與ASDN模型聯合學習提高到了58.5%的表現。由於這兩種方法相互補充,將ASDN和ASTN結合到我們的完整模型中,另外提高到了58.9%的mAP。

對於VGG16架構[36],我們進行了同樣的實驗。首先,我們的基線模型達到了69.1%的mAP,遠高於[6]中報告的66.9%。基於此實施,我們的ASTN模型聯合學習得到了69.9%的mAP,ASDN模型達到了71.0%的mAP。我們的ASTN和ASDN的完整模型將性能提高到71.4%。我們的最終結果在基礎模型上提高了2.3%。

爲了表明我們的方法也適用於非常深的CNN,我們將ResNet-101 [9]架構應用於訓練Fast-RCNN。如表1最後兩行所示,Fast-RCNN與ResNet-101的性能爲71.8%mAP。通過對抗性訓練,結果是73.6%的mAP。我們可以看到,我們的方法不斷改善不同類型架構的性能。


2.1燒蝕分析

ASDN分析。我們比較我們的對抗空間丟棄網絡與使用AlexNet架構的訓練中的各種丟棄/遮擋策略。我們嘗試的第一個簡單基線是RoI-Pooling後的特徵的隨機空間丟棄。爲了公平的比較,我們屏蔽了與ASDN網絡中相同數量神經元的激活值。如表2所示,隨機丟失的表現爲57.3%mAP,略好於基線。我們比較的另一個丟棄策略是我們在訓練ASDN時應用的類似策略(圖3)。我們詳細列舉了不同種類的遮擋,並在每次迭代中選擇最好的遮擋進行訓練。表現爲57.7%的mAP(Ours(hard dropout)),略好於隨機丟棄。

我們發現窮舉策略只能探索非常有限的遮擋策略空間,我們使用預先訓練的ASDN網絡來代替它。然而,當我們固定ASDN的參數時,我們發現性能是57.5%的mAP(Ours(fixed ASDN)),這不如窮盡的策略。原因是固定的ASDN沒有收到更新Fast-RCNN的任何反饋,而詳盡的搜索得到了反饋。如果我們一起共同學習ASDN和Fast-RCNN,我們可以獲得58.5%的mAP,與沒有丟棄策略的基線相比,mAP提高1.5%。這個證據表明,ASDN和Fast-RCNN的共同學習是有所不同的。

ASTN分析。我們將對抗空間變換網絡與目標候選區域的隨機抖動進行了比較。增強包括對Fast-RCNN進行訓練的尺寸的隨機變化,縱座標和旋轉。使用AlexNet,使用隨機抖動的性能爲57.3%mAP,而ASTN結果爲58.1%。使用VGG16,隨機抖動有68.6%mAP而ASTN有69.9%mAP。對於這兩種架構,ASTN的模型比隨機抖動更好。

 

2.2基於類別的分析

  圖5顯示了每個類別的性能如何隨遮擋和變形而變化的圖表。有趣的是,ASTN和ASDN似乎有所幫助的類似乎是類似的。似乎植物和瓶子的表現隨着對抗訓練而提高。然而,將兩個變換組合在一起似乎改善了某些類別的性能,這些類別通過單獨使用遮擋或變形而受到傷害。具體來說,通過結合兩個對抗過程來幫助汽車和飛機等類。

2.3定性結果

  圖6顯示了診斷代碼的方法的一些假陽性[10]。這些例子是手工挑選的,只能出現在對抗學習的誤報列表中,而不是原來的Fast-RCNN。這些結果表明對抗學習的一些缺點。在某些情況下,對抗網絡生成與其他目標類別相似的導致過度泛化的變形或遮擋。例如,我們的方法隱藏了自行車的輪子,導致輪椅被分類爲自行車。

3 PASCAL VOC 2012 and MS COCO上的結果

  我們在表3中顯示了我們使用VGG16在PASCALVOC 2012數據集中的結果,我們的基線表現爲66.4%。我們通過ASDN和ASTN聯合學習的方法爲69.0%,mAP提升了2.6%。 這再次表明,使用VGG對VOC2012的性能提升是顯着的。我們還觀察到,我們的方法提高了VOC 2012以外的所有類別的性能。我們相信這可能是由於VOC2012的多樣化。

我們最後展示在MS COCO數據集中的結果。使用VGG16架構的基準方法VOC得到42.7%AP50,標準COCO25.7%。通過應用我們的方法,我們分別在VOC和COCO數據集上實現了46.2%和27.1%的AP。

4 對比OHEM

  我們的方法也與在線硬樣本挖掘(OHEM)方法[33]有關。我們的方法允許我們對數據集中可能不存在的數據點進行採樣,而OHEM受數據集約束。然而,由於它們是從真實圖像中提取的,所以OHEM具有更加逼真的特徵。爲了比較,在VOC2007數據集上我們的方法(71.4%)優於中的OHEM(69.9%)。然而,我們的結果(69.0%)在VOC2012中不如OHEM(69.8%)。由於這兩種方法是在訓練中生成或選擇不同類型的特徵,我們認爲它們應該是互補的。 爲了證明這一點,我們使用這兩種方法的集合,並將其與VOC 2012的獨立的OHEM和Ours集合進行比較。因此,兩種方法的集合實現了71.7%的mAP,而兩個OHEM模型的集合(71.2 %)或我們的兩個模型(70.2%)不是很好,表明兩種方法的互補性。

 

總結

  物體檢測的長期目標之一是學習對於遮擋和變形不變的物體模型。當前的方法着重於通過使用大規模數據集來學習這些不變性。在本文中,我們認爲,像類別一樣,遮擋和變形也遵循長尾分佈:其中一些是非常罕見的,即使在大規模數據集中也難以採樣。我們建議使用對抗學習策略來學習這些不變性。主要思想是與原始目標檢測器一起學習對抗性。這個對抗性在飛行中創造了不同的遮擋和變形的例子,使得這些遮擋/變形使原始目標檢測器難以分類。 我們的對抗網絡不是在像素空間中生成樣本,而是修改特徵以模擬遮擋和變形。我們在實驗中顯示,這種對抗學習策略對VOC和COCO數據集的檢測性能提供了顯着的提升。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章