【論文翻譯】RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation

《Rich feature hierarchies for accurate object detection and semantic segmentation》

發表會議： CVPR 2013

Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik

UC Berkeley

Abstract：

在canonical PASCAL VOC數據集上測量的對象檢測性能在過去幾年中趨於穩定。性能最好的方法是複雜的集成系統，它通常將多個低級圖像特徵與高級上下文組合在一起。在本文中，我們提出了一種簡單的、可擴展的檢測算法，使得平均平均精度(mAP)比之前VOC 2012的最佳檢測結果提高了30%以上，達到了53.3%的檢測結果。我們的方法結合了兩個關鍵的見解:(1),可以一次將高容量應用卷積神經網絡(cnn)自下而上的地區建議爲了定位和細分對象和(2)標記的訓練數據稀缺時,監督爲輔助訓練的任務,其次是特定於域的微調,收益率顯著的性能提升。由於我們將區域建議與CNNs相結合，我們將我們的方法稱爲R-CNN:具有CNN特徵的區域。我們還將R-CNN與OverFeat進行了比較，後者是最近提出的一種基於類似CNN架構的滑動窗口檢測器。我們發現，R-CNN在200類ILSVRC2013檢測數據集上的性能大大優於OverFeat。完整的系統的源代碼可以在http://www.cs.berkeley.edu/~rbg/rcnn。

1. Introduction：

功能問題。在過去的十年中，各種視覺識別任務的進展很大程度上是基於SIFT[29]和HOG[7]的使用。但是，如果我們看一下典型的視覺識別任務(PASCAL VOC對象檢測[15])的性能，就會發現，在2010年至2012年期間，進展一直比較緩慢，通過構建集成系統和採用成功方法的小變體獲得的進展很小。SIFT和HOG是塊狀定位直方圖，我們可以將其與V1中的複雜細胞大致聯繫起來，V1是靈長類視覺通路的第一個皮層區域。但我們也知道，識別發生在下游的幾個階段，這表明可能有分級的，多階段的過程，爲計算特徵，甚至是更多的信息，爲視覺識別。

福島的“新認知”[19]，一個受生物啓發的層次結構和移不變模式識別模型，就是這樣一個過程的早期嘗試。然而，neocognitron缺乏監督訓練算法。基於Rumelhart等人的[33]，LeCun等人的[26]證明了反向傳播的隨機梯度下降法對於訓練卷積神經網絡(CNNs)是有效的，這是一類擴展新認知元的模型

圖1:對象檢測系統概述。我們的系統(1)採用一個輸入圖像，(2)提取大約2000個自底向上的區域建議，(3)使用一個大的卷積神經網絡(CNN)計算每個建議的特徵，然後(4)使用類特定的線性支持向量機對每個區域進行分類。R-CNN在PASCAL VOC 2010上的平均精度(mAP)達到了53.7%。作爲比較，[39]報告35.1%的地圖使用了相同的區域建議，但是採用了空間金字塔和袋裝可視化文字的方法。流行的可變形零件模型的性能爲33.4%。在200類ILSVRC2013檢測數據集上，R-CNN的mAP爲31.4%，比之前最好的結果爲24.3%的[34]有了很大的改善。

CNNs在20世紀90年代被大量使用(如[27])，但隨着支持向量機的興起，它就不再流行了，特別是在計算機視覺領域。2012年，Krizhevsky等人[25]通過在ImageNet大尺度視覺識別挑戰(ILSVRC)中表現出更高的圖像分類精度，重新點燃了人們對CNNs的興趣[9,10]。他們的成功源於對120萬張標記圖像的大型CNN的訓練，以及對LeCun的CNN的一些扭轉(例如，max(x,0)校正非線性和“dropout”正則化)。

ImageNet結果的重要性在2012年ILSVRC研討會上得到了激烈的討論。核心問題可以歸結爲以下幾個方面:ImageNet上的CNN分類結果在多大程度上可以推廣到PASCAL VOC Challenge上的對象檢測結果?

我們通過彌合圖像分類和目標檢測之間的差距，果斷地回答了這個問題。本文首次表明，與基於更簡單的類豬特徵的系統相比，CNN可以顯著提高PASCAL VOC上的目標檢測性能。實現這一結果需要解決兩個問題:用深度網絡定位目標和用少量帶註釋的檢測數據訓練高容量模型。

與圖像分類不同，檢測需要在圖像中定位(可能有很多)對象。一種方法將本地化定義爲一個迴歸問題。然而，Szegedy et al.[38]等人的研究表明，這種方法在實際應用中可能效果不佳(他們報告的2007年VOC含量爲30.5%，而我們的方法僅爲58.5%)。另一種方法是構建一個滑動窗口檢測器。CNNs已經以這種方式使用了至少20年，通常用於約束對象類別，如人臉[32,40]和行人[35]。爲了保持較高的空間分辨率，這些cnn通常只有兩個卷積和池化層。我們還考慮採用滑動窗口方法。然而，在我們的網絡中，有五個卷積層，接收域非常大(195×195像素)，輸入圖像的步長(32×32像素)，這使得在滑動窗口範例中的精確定位成爲一個開放的技術挑戰。

相反，我們通過在“區域識別”範式[21]中操作來解決CNN定位問題，該範式在對象檢測[39]和語義分割[5]兩方面都取得了成功。在測試時，我們的方法爲輸入圖像生成大約2000個類別無關的區域建議，使用CNN從每個建議中提取一個固定長度的特徵向量，然後使用類別特定的線性支持向量機對每個區域進行分類。我們使用一種簡單的技術(仿射圖像扭曲)來計算每個區域提議的固定大小的CNN輸入，而不考慮區域的形狀。圖1概述了我們的方法，並突出顯示了我們的一些結果。由於我們的系統將區域建議與CNN相結合，所以我們將此方法稱爲R-CNN:區域與CNN特徵相結合。

在本文的更新版本中，我們通過在200類ILSVRC2013檢測數據集上運行R-CNN，對R-CNN和最近提出的超壯舉[34]檢測系統進行了面對面的比較。OverFeat使用滑動窗口CNN進行檢測，是目前ILSVRC2013檢測中表現最好的方法。我們發現R-CNN的表現明顯好於OverFeat，比例分別爲31.4%和24.3%。

檢測面臨的第二個挑戰是標記數據稀缺，目前可用的數量不足以訓練一個大型CNN。這個問題的傳統解決方案是使用無監督的預培訓，然後進行監督微調(例如，[35])。本文的第二個主要貢獻是證明了在一個大的輔助數據集(ILSVRC分類)上的有監督的預訓練是在數據缺乏的情況下學習大容量CNNs的有效範例。在我們的實驗中，檢測的微調將地圖性能提高了8個百分點。經過微調後，我們的系統在VOC 2010上的mAP爲54%，而在高度調諧的、基於hogb的可變形部件模型(DPM)上爲33%[17,20]。

我們的系統也相當高效。唯一的類特定計算是一個合理的小矩陣向量積和貪婪非最大抑制。這個計算特性來自於所有類別中共享的特性，並且這些特性的維數比以前使用的區域特性低兩個數量級(cf.[39])。

類hog特性的一個優點是簡單:更容易理解它們攜帶的信息(儘管[41]表明我們的直覺可能會讓我們失望)。我們能深入瞭解CNN的表現方式嗎?也許這些有着超過5400萬個參數的緊密連接的層纔是關鍵?他們不是。我們對CNN進行了“前腦葉白質切除術”，發現其參數中有相當大的比例(94%)可以被移除，而檢測準確度只有中等程度的下降。相反，通過探測網絡中的單元，我們可以看到卷積層學習了一組豐富的特性(圖4)。

瞭解我們的方法的失效模式對改進它也至關重要，因此我們報告來自Hoiem等人的檢測分析工具的結果。作爲這種分析的直接結果，我們證明了一個簡單的邊界盒迴歸方法可以顯著地減少錯誤定位，而錯誤定位是主要的錯誤模式。

在開發技術細節之前，我們發現由於R-CNN對區域進行操作，所以很自然地將其擴展到語義分割的任務中。通過小的修改，我們在PASCAL VOC的分割任務上也取得了有競爭力的結果，在VOC 2011測試集上平均分割準確率達到47.9%。

2. Object detection with R-CNN：

我們的目標檢測系統由三個模塊組成。第一個生成分類獨立的區域建議。

1 .在同期的工作中，[12]顯示，Krizhevsky等人的CNN在ImageNet上訓練，能夠很好地概括大範圍的數據集和識別任務，包括場景分類、細粒度子分類和域適應。

這些建議定義了我們的探測器可用的候選檢測集。第二個模塊是一個大型的卷積神經網絡，它從每個區域提取一個固定長度的特徵向量。第三個模塊是一組特定於類的線性支持向量機。在本節中，我們將介紹每個模塊的設計決策，描述它們的測試時間使用情況，詳細說明如何學習它們的參數，並在PASCAL VOC 2010-12和ILSVRC2013上顯示檢測結果。

2.1. Module design：

地區的建議。最近的許多論文提供了生成分類獨立的區域建議的方法。例如:客觀的[1]，選擇性搜索[39]，分類獨立的對象建議[14]，約束參數最小切割(CPMC)[5]，多尺度組合分組[3]，以及Cires an等人的[6]，他們通過將CNN應用於規則間隔的方形作物來檢測有絲分裂細胞，這是區域建議的一個特例。雖然R-CNN對特定的區域建議方法是不可知的，但是我們使用選擇性搜索來與之前的檢測工作進行受控比較(例如，[39,42])。

特徵提取。我們使用Krizhevsky等人描述的CNN的Caffe[24]實現，從每個區域提案中提取4096維的特徵向量。通過5個卷積層和2個全連通層，將一個均數減去227×227的RGB圖像向前傳播，計算特徵。我們建議讀者參考[24,25]以獲得更多的網絡架構細節。

爲了計算區域建議的特徵，我們必須首先將該區域的圖像數據轉換成與CNN兼容的形式(其架構需要固定的227×227像素大小的輸入)。在任意形狀區域的許多可能的轉換中，我們選擇最簡單的。不管候選區域的大小或長寬比如何，我們都會將它周圍的所有像素彎曲成所需的大小。在進行翹曲之前，我們擴展了緊邊界框，這樣在翹曲大小處，原始框周圍正好有p個翹曲圖像上下文像素(我們使用p = 16)。圖2顯示了扭曲訓練區域的隨機抽樣。在附錄A中討論了翹曲的替代方法。

2.2. Test-time detection：

在測試時，我們對測試圖像進行選擇性搜索，以提取出大約2000個區域建議(我們在所有實驗中都使用了選擇性搜索的“快速模式”)。爲了計算特徵，我們對每個提議進行變形，並通過CNN進行傳播。然後，對於每個類，我們使用針對該類訓練的SVM對每個提取的特徵向量進行評分。給定圖像中所有得分區域，我們應用一個貪婪的非最大抑制(對每個類獨立地)，如果一個區域有一個相交-過並集(IoU)與一個高於學習閾值的得分較高的選定區域重疊，則該區域拒絕該區域

運行時分析。兩個特性使檢測變得高效。首先，所有CNN參數在所有類別中共享。其次，與其他常用的方法(如帶有視覺詞彙編碼的空間金字塔)相比，CNN計算的特徵向量是低維的。例如，在UVA探測系統[39]中使用的特徵比我們的要大兩個數量級(360k比4k維)。

這種共享的結果是，計算區域建議和功能(GPU上的13s/圖像或CPU上的53s/圖像)所花費的時間被分攤到所有類上。唯一的類特定計算是特徵和SVM權值之間的點積和非最大抑制。在實踐中，圖像的所有點積都被批量化爲單個矩陣-矩陣乘積。特徵矩陣一般爲2000×4096，支持向量機權矩陣爲4096×N，其中N爲類數

這個分析表明，R-CNN可以擴展到數千個對象類，而不需要使用類似哈希這樣的近似技術。即使有100k個類，在現代多核CPU上得到的矩陣乘法也只需要10秒。這種效率不僅僅是使用區域建議和共享特性的結果。UVA系統，由於它的高維特性，將會慢兩個數量級，同時需要134GB的內存來存儲100k的線性預測器，相比之下，我們的低維特性只需要1.5GB。

將R-CNN與Dean等人最近關於使用DPMs和散列[8]進行可伸縮檢測的工作進行對比也很有趣。他們報告說，在引入10k干擾類時，每張圖的運行時間爲5分鐘，VOC 2007的地圖約爲16%。使用我們的方法，10k檢測器可以在一分鐘內在CPU上運行，因爲沒有進行近似，所以mAP將保持在59%(第3.2節)。

2.3. Training：

監督訓練。我們在一個大的輔助數據集(ILSVRC2012分類)上對CNN進行了有區別的預訓練，僅使用圖像級註釋(此數據不提供boundingbox標籤)。使用開源的CNN圖書館[24]進行預培訓。簡而言之，我們的CNN幾乎與Krizhevsky等人的[25]的表現相匹配，在ILSVRC2012分類3驗證集上獲得了最高的錯誤率2.2個百分點。這種差異是由於在訓練過程中進行了簡化。

特定領域的微調。爲了使我們的CNN適應新的任務(檢測)和新的領域(彎曲建議窗口)，我們繼續使用僅僅彎曲區域建議的CNN參數的隨機梯度下降(SGD)訓練。除了將CNN的ImageNetspecific 1000-way classification layer替換爲一個隨機初始化的(N + 1)-way classification layer(其中N是對象類的數量，加上1作爲背景)之外，CNN的架構沒有改變。VOC N = 20, ILSVRC2013 N = 200。我們將所有IoU≥0.5的區域建議與地面真值框重疊作爲該框類的積極因素，其餘爲消極因素。我們以0.001的學習率(初始訓練前率的1/10)開始SGD，這允許進行微調，同時不影響初始化。在每個SGD迭代中，我們統一採樣32個正窗口(在所有類上)和96個後臺窗口，以構建一個大小爲128的小批。我們傾向於正窗口的抽樣，因爲與背景相比，它們是非常罕見的。

對象的類別分類器。考慮訓練一個二進制分類器來檢測車輛。很明顯，一個緊密包圍汽車的圖像區域應該是一個積極的例子。同樣，很明顯，與汽車無關的背景區域應該是一個負面例子。不太清楚的是如何標記部分與汽車重疊的區域。我們用IoU重疊閾值來解決這個問題，低於這個閾值的區域被定義爲負值。重疊閾值0.3是通過對{0,0.1，…我們發現仔細選擇這個閾值是很重要的。將其設置爲0.5，就像在[39]中一樣，將mAP減少5個點。類似地，將其設置爲0會使mAP減少4個點。積極的例子被簡單地定義爲每個類的ground-truth邊界框。

一旦特徵提取和訓練標籤的應用，我們優化一個線性支持向量機每類。由於訓練數據量太大，無法在內存中擬合，我們採用標準的硬負挖掘方法[17,37]。硬負挖掘收斂快，在實踐中地圖停止增加後，只有一個單一的通過所有的圖像。

在附錄B中，我們討論了爲什麼在微調和支持向量機訓練中定義正例和反例是不同的。我們還討論了爲什麼有必要訓練檢測分類器，而不是簡單地使用經過微調的CNN的最後一層(fc8)的輸出。

2.4. Results on PASCAL VOC 2010-12：

遵循PASCAL VOC的最佳實踐[15]，我們在VOC 2007數據集上驗證了所有的設計決策和超參數(第3.2節)。對於VOC 2010-12數據集的最終結果，我們對VOC 2012訓練的CNN進行了微調，並對VOC 2012訓練的SVMs進行了優化。對於兩個主要的算法變體，我們只向評估服務器提交了一次測試結果(包含和不包含邊界框迴歸)。

表1顯示了VOC 2010的完整結果。我們將我們的方法與四種強基線進行比較，包括SegDPM[18]，它將DPM檢測器與一個語義分割系統[4]的輸出相結合，並使用額外的檢測器間上下文和圖像分類器重新取心。最接近的比較是來自Uijlings等人[39]的UVA系統，因爲我們的系統使用相同的區域建議算法。爲了對區域進行分類，他們的方法構建了一個四層的空間金字塔，並使用密集採樣的SIFT、擴展的反對者SIFT和RGBSIFT描述符對其進行填充，每個矢量用4000字的碼本進行量化。採用直方圖交核SVM進行分類。與它們的多特徵、非線性核支持向量機方法相比，我們在mAP上取得了很大的改進，從35.1%提高到了53.7%，同時也快了很多(2.2節)。我們的方法在VOC 2011/12測試中取得了相似的性能(53.3% mAP)。

2.5. Results on ILSVRC2013 detection：

我們使用與PASCAL VOC相同的系統超參數對200級ILSVRC2013檢測數據集運行R-CNN。我們遵循相同的協議，只向ILSVRC2013評估服務器提交了兩次測試結果，一次帶有和一次沒有綁定盒迴歸。

圖3將R-CNN與2013年ILSVRC競賽的參賽作品以及賽後的優勝成績[34]進行了比較。R-CNN獲得了31.4%的地圖，遠遠超過了OverFeat獲得的24.3%的第二好結果。爲了更好地理解類之間的AP分佈，本文還提供了箱形圖，表7中給出了一個perclass APs表。大多數參賽作品(OverFeat、NEC-MU、UvAEuvision、Toronto A和UIUC-IFP)都使用了卷積神經網絡，這表明CNNs在如何應用於目標檢測方面存在顯著的細微差別，從而導致了結果的巨大差異。

在第4節中，我們給出了ILSVRC2013檢測數據集的概述，並提供了關於我們在其上運行R-CNN時所做選擇的詳細信息。

3. Visualization, ablation, and modes of error：

3.1. Visualizing learned features：

第一層過濾器可以直接可視化，很容易理解[25]。它們捕捉有方向的邊緣和對手的顏色。理解後續的層更具挑戰性。在[43]中，Zeiler和Fergus提供了一種視覺上有吸引力的反容量方法。我們提出一個簡單的(和互補的)非參數方法，直接顯示網絡學習的內容。

表1:2010年VOC檢測平均精度(%)R-CNN是最直接可比的紫外線A和區域，因爲所有的方法使用選擇性搜索區域的建議。包圍盒迴歸(BB)在c節中進行了描述。在發表時，SegDPM在PASCAL VOC排行榜中表現最好。†DPM和SegDPM使用上下文重取，其他方法不使用。

圖3:(左)ILSVRC2013檢測測試集的平均精度。*之前的方法使用外部訓練數據(在所有情況下都使用來自ILSVRC分類數據集的圖像和標籤)。(右)每個方法200個平均精度值的箱形圖。比賽後的超壯舉結果的方框圖沒有顯示出來，因爲每個類的ap還沒有提供(R-CNN的每個類的ap在表7中，也包含在上傳到arXiv.org的技術報告源中;見R-CNN-ILSVRC2013-APs.txt)。紅線表示AP的中位數，框底和框頂分別是第25和第75個百分位。晶須延伸到每種方法的最小AP和最大AP。每個AP都被繪製爲鬍鬚上的一個綠色點(使用縮放技術觀看效果最佳)。

圖4:6個pool5單元的頂部區域。接受域和激活值用白色表示。一些單元與概念對齊，如人(第一行)或文本(第4行)。其他單元捕獲紋理和材料屬性，如點陣列(第2行)和鏡面反射(第6行)。

表2:2007年VOC檢測平均精度(%)。第1-3行顯示R-CNN的性能，沒有進行微調。第4-6行顯示了CNN在ILSVRC 2012上的預訓練結果，然後在VOC 2007 trainval上進行了微調(FT)。第7行包括一個簡單的邊界框迴歸(BB)階段，它減少了定位錯誤(C部分)。第一個只使用HOG，而後面兩個使用不同的特性學習方法來擴充或取代HOG。

其思想是在網絡中挑出一個特定的單元(特性)，並把它當作一個獨立的對象檢測器來使用。也就是說，我們計算單位的激活在一個大的區域提議集合上(大約1000萬)，從最高的提議到最低的激活排序，執行非最大的抑制，然後顯示得分最高的區域。我們的方法讓選擇的單元“自己說話”，準確地顯示它觸發哪個輸入。我們避免平均，以看到不同的視覺模式，並深入瞭解單位計算的不變性。

我們可視化來自layer pool5的單元，它是網絡的第五個也是最後一個卷積層的maxpooling輸出。pool5feature map爲6×6×256 = 9216維。忽略邊界效應，在原始的227×227像素輸入中，每個pool5單元的接受域爲195×195像素。泳池中央的一個單元幾乎可以看到整個泳池，而靠近泳池邊緣的一個單元則有一個更小的、修剪過的支撐物。

圖4中的每一行顯示了我們在VOC 2007 trainval上進行了微調的CNN的pool5單元的前16個激活。256個功能獨特的單元中有6個是可視化的(附錄D包括更多)。選擇這些單元是爲了展示網絡學習的代表性樣本。在第二行，我們看到一個單位，火災的狗臉和dotarrays。第三行對應的單元是一個紅色斑點探測器。還有人臉探測器，以及更抽象的圖案，如文本和帶有窗戶的三角形結構。該網絡似乎學習了一種表示方法，該方法將少量的類調優特性與形狀、紋理、顏色和材料屬性的分佈式表示結合在一起。隨後的全連接層fc6有能力對這些豐富特性的大量組合進行建模。

3.2. Ablation studies：

逐層性能，無需微調。爲了瞭解哪些層對檢測性能至關重要，我們分析了VOC 2007數據集上CNN最後三層的結果。第3.1節簡要描述了層池5。最後兩層總結如下。

層fc6完全連接到pool5。爲了計算特徵，它將一個4096×9216的權重矩陣乘以pool5特徵圖(以9216維向量的形式重新構造)，然後添加一個偏差向量。該中間向量分段半波整流(x←max(0, x))。

fc7層是網絡的最後一層。它是通過將fc6計算得到的特徵乘以4096×4096的權矩陣來實現的，類似地添加一個偏置向量並應用半波整流。

我們從查看CNN的結果開始，沒有對PASCAL進行微調，即所有CNN參數都只在ILSVRC 2012上進行了預訓練。逐層分析性能(表2第1-3行)發現，fc7中的特性泛化得比fc6中的更差。這意味着29%，也就是大約1680萬的CNN參數可以在不影響mAP的情況下被移除。更令人驚訝的是，刪除fc7和fc6會產生非常好的結果，儘管pool5功能僅使用CNN參數的6%進行計算。CNN的大部分代表性力量來自於它的卷積層，而不是更大的密集連接層。這一發現表明，僅使用CNN的卷積層，在計算任意大小圖像的稠密特徵圖(HOG意義上)方面具有潛在的實用價值。這種表現將使實驗與滑動窗口探測器，包括DPM，在上面的pool5features。

性能逐層，微調。我們現在看一下我們的CNN在VOC 2007訓練中調整參數後的結果。改進是顯著的(表2行4-6):微調增加了8.0個百分點，達到54.2%。與pool5相比，fc6和fc7的微調帶來的提升要大得多，這表明從ImageNet學習到的pool5特性是通用的，而大部分改進是通過在它們之上學習6個領域特定的非線性分類器獲得的。

與當前特徵學習方法的比較。相對較少的特徵學習方法被用於PASCAL VOC的檢測。我們來看看最近兩種建立在可變形零件模型上的方法。作爲參考，我們還包括了標準的hogbased DPM[20]的結果。

第一個DPM特徵學習方法，DPM ST[28]，用“草圖標記”概率的直方圖來增強HOG特徵。直觀地說，一個草圖標記是一個緊密分佈的等高線通過一個圖像補丁的中心。草圖令牌概率由一個隨機森林計算每個像素，該森林經過訓練，將35×35像素的patch分類爲150個草圖令牌或背景中的一個。

第二種方法，DPM HSC[31]，用稀疏編碼(HSC)的直方圖代替HOG。爲了計算HSC，使用100個7×7像素(灰度)原子的學習型字典在每個像素處求解稀疏編碼激活。由此產生的激活是用三種方法來糾正(完整和half-waves),空間彙集、單元的2歸一化,然後能力轉換(x) | x (x←標誌|α)。

所有的R-CNN變體都比三個DPM基線(表2行8-10)表現得更好，包括兩個使用特徵學習的。與只使用HOG特性的最新版本DPM相比，我們的地圖提高了20個百分點以上:54.2% vs. 33.3%—相對提高了61%。HOG和sketch令牌的組合僅比HOG多出2.5個映射點，而HSC比HOG多出4個映射點(在內部與它們的私有DPM基線相比較時——兩者都使用了DPM的非公共實現，其性能低於開源版本[20])。這些方法的map分別爲29.1%和34.3%。

3.3. Detection error analysis：

我們應用了Hoiem等人的優秀檢測分析工具[23]來揭示我們的方法的錯誤模式，瞭解微調如何改變它們，並查看我們的錯誤類型與DPM的比較。對分析工具的完整總結超出了本文的範圍，我們鼓勵讀者參考[23]以理解一些更詳細的細節(如“規範化AP”)。由於分析最好在相關情節的上下文中進行，所以我們在圖5和圖6的標題中進行了討論。

3.4. Bounding-box regression：

在誤差分析的基礎上，實現了一種減少定位誤差的簡單方法。受DPM[17]中使用的邊界盒迴歸的啓發，我們訓練了一個線性迴歸模型來預測一個新的檢測窗口，該窗口給定了一個選擇性搜索區域的5個特徵。完整的細節在附錄c中給出。表1、表2和圖5中的結果顯示了這種簡單的方法修正了大量的定位錯誤，地圖提升3到4點

3.5. Qualitative results：

本文最後對ILSVRC2013的定性檢測結果如圖8和圖9所示。每個圖像從val2set中隨機採樣，所有檢測精度大於0.5的檢測器都顯示出來。請注意，這些都不是策劃的，並給出了探測器實際運行的真實印象。圖10和圖11給出了更多定性結果，但這些結果都是經過策劃的。我們選擇每一張圖片，因爲它包含有趣的、令人驚訝的或有趣的結果。這裏還顯示了精度大於0.5的所有檢測結果。

4. The ILSVRC2013 detection dataset：

在第2節中，我們展示了ILSVRC2013檢測數據集的結果。這個數據集的同構性不如PASCAL VOC，需要選擇如何使用它。由於這些決策非常重要，所以我們將在本節中討論它們。

圖6:對對象特徵的敏感性。每個圖顯示了在6個不同對象特徵(遮擋、截斷、邊界盒區域、長寬比、視點、部分可見性)內執行最高和最低的子集的平均值(類上)規範化AP(參見[23])。我們爲我們的方法(R-CNN)展示了帶有和不帶有微調(FT)、邊界盒迴歸(BB)以及DPM voc-release5的圖。總的來說，微調不會降低靈敏度(最大值和最小值之間的差異)，但會顯著改善幾乎所有特性的最高和最低性能子集。這表明，微調不僅僅是簡單地提高了性能最低的子集的長寬比和邊界盒區域，這可能是一個基於我們如何扭曲網絡輸入的猜想。相反，微調改進了對所有特徵的魯棒性，包括遮擋、截斷、視點和部分可見性。

4.1. Dataset overview：

ILSVRC2013檢測數據集分爲三個集合:train(395,918)、val(20,121)和test(40,152)，其中每個集合中的圖像數在括號中。val和test分劃來自於相同的圖像分佈。這些圖像與PASCAL VOC圖像具有相似的場景和複雜性(對象的數量、雜亂程度、姿態可變性等)。val和test分隔符被詳盡地註釋，這意味着在每個圖像中，來自所有200個類的所有實例都被用邊界框標記。相比之下，該列車集是由ILSVRC2013分類圖像分佈繪製的。這些圖像具有更可變的複雜性，並傾向於單一居中對象的圖像。與val和test不同的是，列車圖像(由於它們的數量很大)沒有進行詳盡的註釋。在任何給定的火車映像中，來自200個類的實例可能被標記，也可能沒有。除了這些圖像集，每個類都有一組額外的負面圖像。將手動檢查負面映像，以驗證它們是否包含關聯類的任何實例。在這項工作中沒有使用負像集。有關ILSVRC如何收集和註釋的更多信息可以在[11,36]中找到。

這些分裂的性質爲訓練R-CNN提供了許多選擇。火車圖像不能用於硬負面挖掘，因爲註釋不是詳盡的。負面例子從何而來?另外，列車圖像的統計量與val和test的統計量不同。應該使用火車圖像嗎?如果應該，使用到什麼程度?雖然我們還沒有對大量的選擇進行全面評估，但根據以往的經驗，我們提出了似乎是最明顯的選擇。

我們的總體策略是嚴重依賴val集，並使用一些火車圖像作爲輔助來源的積極的例子。爲了同時使用val進行培訓和驗證，我們將其大致分成大小相等的“val1”和“val2”集。因爲有些類在val中很少有實例(最小的只有31個，一半的少於110個)，所以生成一個近似類平衡的分區是很重要的。爲了做到這一點，生成了大量的候選分割，並選擇了最大相對階級不平衡最小的分割。每一個候選分割是由val圖像聚類生成的，使用它們的類計數作爲特徵，然後進行隨機化的局部搜索，以改善分割平衡。這裏使用的特定分割具有大約11%的最大相對不平衡和4%的中位數相對不平衡。val1/val2split和用於生成它們的代碼將被公開，以允許其他研究人員在本報告中使用的val split上比較他們的方法。

4.2. Region proposals：

我們採用了與PASCAL上的檢測相同的區域建議方法。選擇性搜索[39]以“快速模式”運行在val1、val2中的每張圖像上，並進行測試(但不運行在訓練中的圖像上)。一個小的修改是需要處理的事實，即選擇性搜索不是規模不變的，因此產生的區域數量取決於圖像的分辨率。ILSVRC圖像的大小範圍從非常小到幾個百萬像素，因此在運行選擇性搜索之前，我們將每個圖像的大小調整爲一個固定的寬度(500像素)。在val上，選擇性搜索的結果是每張圖像平均有2403個區域建議，有91.6%的人回憶起所有的地面真實邊界框(0.5 IoU閾值)。召回率明顯低於帕斯卡，後者約爲98%，表明在區域提案階段有很大的改進空間。

4.3. Training data：

對於訓練數據，我們形成了一組圖像和方框，其中包括val1的所有選擇性搜索和地面真相方框，以及每個至多N個地面真相方框來自train的類(如果一個類在train中有少於N個ground-truth盒子，那麼我們將它們全部拿走)。我們將這個圖像和方框的數據集稱爲val1+trainN。在消融研究中，我們對N∈{0,500,1000}在val2上顯示mAP (Section 4.5)。

R-CNN需要三個步驟的訓練數據:(1)CNN微調，(2)檢測器SVM訓練，(3)邊界盒迴歸器訓練。使用與PASCAL相同的設置，在val1+ trainn上對50k SGD迭代運行CNN微調。使用Caffe對一臺NVIDIA Tesla K20進行微調需要13個小時。在支持向量機訓練中，所有來自val1+trainN的ground-truth box都被作爲各自類的正例。對隨機選取的5000幅val1圖像進行硬陰性挖掘。一項初步實驗表明，與5000張圖像子集(大約一半)相比，從val1的所有圖像中挖掘負片只會導致mAP下降0.5個百分點，而SVM的訓練時間則減少了一半。沒有負面的例子，因爲註釋不是詳盡的。沒有使用額外的經過驗證的負面圖像集。對邊界盒迴歸器進行val1訓練。

4.4. Validation and evaluation：

在將結果提交給評估服務器之前，我們使用上面描述的訓練數據驗證了數據使用的選擇以及微調和限制框迴歸對val2set的影響。所有系統超參數(如SVM C超參數、用於區域整經的填充、NMS閾值、邊界盒迴歸超參數)都固定在PASCAL的相同值上。毫無疑問，其中一些超參數的選擇對於ILSVRC來說是稍微次優的，但是這項工作的目標是在ILSVRC上產生一個初步的R-CNN結果，而不需要大量的數據集調優。在選擇了val2上的最佳選項之後，我們向ILSVRC2013評估服務器提交了兩個結果文件。第一次提交不使用限制盒迴歸，第二次提交使用限制盒迴歸。對於這些提交，我們擴展了SVM和boundingbox迴歸器訓練集，分別使用val+train1k和val。我們使用了在val1+train1k上進行微調的CNN，以避免重新運行微調和特徵計算。

4.5. Ablation study：

表3顯示了對不同數量的訓練數據、微調和boundingbox迴歸的影響的消融研究。第一個觀察結果是，val2上的mAP與test上的mAP非常接近。這使我們確信，val2上的mAP是測試集性能的良好指示器。第一個結果是20.9%，這是R-CNN使用在ILSVRC2012分類數據集上預先訓練的CNN所獲得的結果(沒有微調)，並且允許訪問val1中的少量訓練數據(回想一下val1中的一半的類有15到55個示例)。將訓練集擴展爲val1+ trainn將性能提高到24.1%，N = 500和N = 1000之間基本沒有區別。使用val1中的示例對CNN進行微調，使其略微提高到26.5%，但是由於正訓練示例的數量很少，可能存在顯著的過度擬合。將微調集擴展到val1+train1k，即每個類增加1000個積極的例子，這對mAP有很大的幫助，將mAP提升到29.7%。邊界盒迴歸將結果提高到31.0%，這是一個比PASCAL中觀察到的更小的相對增益。

4.6. Relationship to OverFeat：

R-CNN和OverFeat之間有一個有趣的關係:OverFeat(大致)可以被看作是R-CNN的一個特例。如果有人替代選擇性搜索區域建議定期的多尺度金字塔廣場區域和每個類限定框的解釋變量更改爲一個限定框迴歸量,那麼系統將是非常相似的(模如何訓練一些潛在的顯著差異:CNN檢測微調,使用支持向量機,等等)。值得注意的是，OverFeat比R-CNN有一個顯著的速度優勢:它比R-CNN快9倍，這是根據引用自[34]的每幅圖2秒得出的結論。這個速度來自於OverFeat的滑動窗口。，區域建議)不會在圖像層面扭曲，因此計算可以很容易地在重疊窗口之間共享。共享是通過在任意大小的輸入上以卷積方式運行整個網絡來實現的。加速R-CNN應該是可能的，在各種各樣的方式，仍然作爲未來的工作。

5. Semantic segmentation：

區域分類是一種標準的語義分割技術，使我們能夠輕鬆地將R-CNN應用到PASCAL VOC的分割挑戰中。爲了便於與當前領先的語義分割系統(稱爲“二級池”O2P)[4]進行直接比較，我們在其開源框架內工作。O2P使用CPMC爲每張圖像生成150個區域建議，然後使用支持向量迴歸(SVR)爲每個類預測每個區域的質量。他們的方法的高性能是由於CPMC區域的質量和多種特徵類型(SIFT和LBP的豐富變種)的強大二階池。我們還注意到Farabet等人最近使用CNN作爲多尺度每像素分類器在幾個密集場景標記數據集(不包括PASCAL)上展示了良好的結果。

我們遵循[2,4]並擴展了PASCAL分割訓練集，以包括可用的額外註釋作者:Hariharan等，[22]。設計決策和超參數在VOC 2011驗證集中進行交叉驗證。最終測試結果只評估一次。

CNN的特點，分割。我們評估了在CPMC區域上計算特徵的三種策略，所有這些策略都是從將區域周圍的矩形窗口扭曲爲227×227開始的。第一種策略(full)忽略區域的形狀，直接在扭曲的窗口上計算CNN的特徵，這與我們在檢測時所做的完全一樣。然而，這些特徵忽略了區域的非矩形形狀。兩個區域可能有非常相似的邊界框，但是重疊很少。因此，第二種策略(fg)只計算區域前景掩碼上的CNN特徵。我們用均值輸入代替背景，使背景區域在均值相減後爲零。第三種策略(full+fg)簡單地連接full和fg特性;我們的實驗驗證了它們的互補性。

表4:VOC 2011驗證的分割平均準確率(%)列1表示O2P;2-7使用我們的CNN在ILSVRC 2012上的預訓練。

2011年VOC結果。表4總結了我們2011年VOC驗證集與O2P的結果。(每個類別的完整結果見附錄E。)在每個特徵計算策略中，layer fc6總是優於fc7，下面討論fc6的特徵。fg策略的表現略優於full，這表明掩蔽區域形狀提供了更強的信號，與我們的直覺相匹配。然而，full+fg的平均準確率爲47.9%，我們的最佳結果爲4.2%(也略微優於O2P)，這表明即使考慮到fg特性，full features提供的上下文也具有很高的信息量。值得注意的是，在單個核心上訓練20個svr需要1個小時，而在O2P特性上訓練則需要10個多小時。

在表5中，我們展示了2011年VOC測試集的結果，並將我們的最佳性能方法fc6(full+fg)與兩個強基線進行了比較。我們的方法在21個類別中的11個類別中獲得了最高的分割精度，並且在所有類別中平均獲得了最高的47.9%的整體分割精度(但是在任何合理的誤差範圍內都可能與O2P結果保持一致)。通過微調還可以獲得更好的性能。

6. Conclusion：

近年來，目標檢測性能停滯不前。性能最好的系統是將多個低層圖像特徵與來自對象檢測器和場景分類器的高層上下文相結合的複雜集成。本文提出了一種簡單、可擴展的目標檢測算法，該算法相對於之前在PASCAL VOC 2012上的最佳檢測結果提高了30%。

我們通過兩個視角實現了這一表現。首先將大容量卷積神經網絡應用於自底向上的區域建議中，對目標進行定位和分割;第二個是在標記的訓練數據缺乏時訓練大型cnn的範例。結果表明，對數據量大的輔助任務(圖像分類)進行網絡預訓練，然後對數據量少的目標任務(檢測)進行網絡微調是非常有效的。我們推測“監督前訓練/特定領域的細化”範式對於各種數據稀缺的視覺問題將是非常有效的。

最後，我們注意到，我們通過結合使用來自計算機視覺和深度學習(自下而上區域建議和卷積神經網絡)的經典工具來實現這些結果是很重要的。這兩者不是對立的科學研究路線，而是自然和必然的合作伙伴。

致謝這項研究得到了DARPA Mind 's Eye和MSEE項目的部分支持，得到了美國國家科學基金會IIS-0905647、IIS-1134072和IIS-1212798、MURI n000014 - 10-10-1 -0933等獎項的支持，並得到了豐田公司的支持。本研究中使用的gpu是由NVIDIA公司慷慨捐贈的。

表5:VOC 2011檢測的分割準確率(%)我們比較了兩個強大的基線:[2]的“區域和部分”(R&P)方法和[4]的二階池化(O2P)方法。沒有任何微調，我們的CNN實現了最高的分割性能，表現優於R&P和大致匹配O2P。

Appendix：

A. Object proposal transformations：

本工作中使用的卷積神經網絡需要一個固定大小的227×227像素的輸入。對於檢測，我們考慮的對象建議是任意的圖像矩形。我們評估了將對象建議轉換爲有效的CNN輸入的兩種方法。

第一個方法(“帶上下文的最緊的正方形”)將每個對象建議封閉在最緊的正方形中，然後將正方形中包含的圖像按比例縮放(等熱帶)到CNN輸入大小。圖7列(B)顯示了這種轉換。此方法的變體(“tightest square without context”)排除了圍繞原始對象建議的圖像內容。圖7列©顯示了這種轉換。第二種方法(“warp”)各向異性地將每個對象建議縮放到CNN輸入大小。圖7列(D)顯示了warp轉換。

對於每個轉換，我們還考慮在原始對象建議周圍包含額外的圖像上下文。上下文填充量§定義爲在轉換後的輸入座標系中原始對象提案周圍的邊框大小。圖7顯示了每個示例的最上面一行的p = 0像素，最下面一行的p = 16像素。在所有的方法中，如果源矩形延伸到圖像之外，缺失的數據將被替換爲圖像均值(然後在將圖像輸入到CNN之前減去該均值)。一組試點實驗表明，使用上下文填充(p = 16像素)的翹曲效果遠遠好於其他方法(3-5個地圖點)。顯然，可以有更多的替代方法，包括使用複製代替平均填充。對這些備選方案的詳盡評價留作今後的工作。

B. Positive vs. negative examples and fc8：

兩個奇怪的設計選擇值得進一步討論。第一個問題是:爲什麼在微調CNN和訓練對象檢測支持向量機時定義積極和消極的例子是不同的?爲了簡單回顧一下定義，爲了進行微調，我們將每個對象建議映射到與之有最大IoU重疊(如果有的話)的ground-truth實例，如果IoU至少爲0.5，則將其標記爲匹配的ground-truth類的正值。所有其他的提案都被貼上了“背景”的標籤。，所有類的反例)。爲相比之下，我們只將ground-truth框作爲其各自類的積極示例，並將與類的所有實例重疊的小於0.3 IoU的建議標記爲該類的消極建議。落在灰色地帶的建議(超過0.3個IoU重疊，但不是地面事實)被忽略。

圖7:不同的對象建議轉換。(A)相對於轉換後的CNN輸入的實際比例的原始對象建議;(B)與環境最協調;©沒有上下文的最嚴密的正方形;(D)扭曲。在每一列和示例建議中，最上面一行對應上下文填充的p = 0像素，而最下面一行對應上下文填充的p = 16像素。

從歷史上講，我們之所以得出這些定義，是因爲我們首先對ImageNet預先訓練的CNN計算出的特徵進行SVMs訓練，所以當時並沒有考慮進行微調。在這個設置中，我們發現用於培訓支持向量機的特定標籤定義在我們評估的選項集(包括我們現在用於微調的設置)中是最優的。當我們開始使用微調時，我們最初使用與支持向量機訓練相同的正例和反例定義。然而，我們發現結果比我們目前使用的積極和消極的定義得到的結果要糟糕得多。

我們的假設是，在如何定義積極和消極方面的這種差異並不是根本重要的，而是來自於微調數據是有限的這一事實。我們當前的方案引入了許多“抖動的”示例(那些建議的重疊在0.5和1之間，但不符合基本事實)，這將積極示例的數量增加了大約30倍。我們推測，在對整個網絡進行微調以避免過度擬合時，需要這個大的11集。然而，我們也注意到，使用這些抖動的示例可能不是最優的，因爲網絡沒有進行精確定位的微調。

這就引出了第二個問題:在進行了微調之後，爲什麼還要對SVMs進行培訓呢?如果簡單地應用微調網絡(fc8)的最後一層，即21路softmax迴歸分類器作爲對象檢測器，則會更簡潔。我們嘗試了一下，發現VOC 2007的表現從54.2%下降到41.3%(12.9個百分點)!這種性能下降可能源於微調中使用的積極示例的定義，它不強調精確的本地化。

我們推測，如果有足夠的檢測訓練數據，就可以像我們在SVM訓練中所做的那樣，簡單地定義正例和反例，然後進行微調(或者從零開始訓練)，最後一層作爲目標檢測器。如果是真的，這將很好地簡化R-CNN訓練。

C. Bounding-box regression：

我們使用一個簡單的邊界盒迴歸階段來提高本地化性能。在使用類特定的檢測支持向量機對每個選擇搜索建議進行評分後，我們預測使用類特定的邊界盒迴歸器進行檢測的新邊界盒。這在本質上類似於可變形部件模型[17]中使用的邊界盒迴歸。這兩種方法的主要區別在於，這裏我們從CNN計算的特徵迴歸，而不是從推斷的DPM部件位置計算的幾何特徵迴歸。

我們的訓練算法的輸入是一組N個訓練對{(Pi, Gi)}i=1，…，其中Pi= (Pi x, Pi y, Pi w, Pi h)指定提案Pi的包圍框中心的像素座標以及Pi的寬度和高度(以像素爲單位)。因此，除非需要，否則我們刪除上標i。每個地面真值邊界框G的指定方式相同:G = (Gx, Gy, Gw, Gh)。我們的目標是學習一個轉換，它將一個被提議的boxP映射到一個ground-truth box G。

我們用四個函數來參數化這個變換dx§ dy§ dw§和dh§前兩個指定了P的邊界框的中心的比例不變平移，而後兩個指定了P的邊界框的寬度和高度的對數空間平移。學習這些函數後,我們可以將一個輸入建議P轉換成真實預測盒ˆG通過應用轉換

每個函數d?§(在哪裏?是x, y, h, w)被建模爲一個線性函數的pool5features建議P,用φ5 §。(φ5的依賴性§對圖像數據隱含假設。)因此我們有d ? § = wT ?φ5 §, w在哪裏?是一個可學習模型參數的向量。我們學習w ?通過優化正則化最小二乘目標(ridge迴歸):

迴歸的目標是t?對於訓練對(P, G)定義爲

這是一個標準的正則化最小二乘問題，可以用封閉形式有效地求解。

在實現邊界盒迴歸時，我們發現了兩個微妙的問題。首先,正則化很重要:我們設置λ= 1000基於一組驗證。第二個問題是,必須注意在選擇使用哪個培訓對(P, G)。直觀地說，如果P與所有的基本真值框相距甚遠，那麼將P轉換爲基本真值框G的任務就沒有意義了。使用P這樣的例子會導致一個無望的學習問題。因此，我們只從提案P中學習，如果它附近至少有一個ground-truth box。當且僅當重疊大於閾值(我們使用驗證集將其設置爲0.6)時，我們通過將P分配給ground-truth框G來實現“接近性”，它與該框有最大的IoU重疊(如果重疊超過一個)。所有未分配的提案將被丟棄。我們對每個對象類都這樣做一次，以便學習一組特定於類的邊界盒迴歸器。

在測試時，我們對每個提案進行評分，並且只預測它的新檢測窗口一次。原則上，我們可以迭代這個過程(即，對新預測的邊界框重新打分，然後從中預測一個新的邊界框，以此類推)。然而，我們發現迭代並不能改善結果。

D. Additional feature visualizations：

圖12顯示了20個pool5單元的附加可視化效果。對於每個單元，我們展示了24個區域建議，這些建議在VOC 2007測試的全部1000萬個區域中最大限度地激活了該單元。

我們根據每個單元在6×6×256維pool5feature map中的(y, x, channel)位置進行標記。在每個通道中，CNN計算輸入區域的相同函數，(y, x)位置只改變接受域。

E. Per-category segmentation results：

在表6中，我們展示了除了O2P方法[4]外，我們的六種分割方法在VOC 2011 val上的每個類別的分割精度。這些結果顯示了在20個PASCAL類和後臺類中哪些方法最強。

F. Analysis of cross-dataset redundancy：

輔助訓練數據集要考慮的一個問題之間可能存在的冗餘和測試集,即使目標檢測的任務和整幅圖像分類是大大不同的,這樣橫流冗餘更令人擔憂,我們還進行了一次徹底的調查,量化的程度帕斯卡測試圖像中包含ILSVRC 2012訓練集和驗證集。我們的發現可能對有興趣使用ILSVRC 2012作爲PASCAL圖像分類任務訓練數據的研究人員有用。

我們對重複(和接近重複)的圖像執行了兩次檢查。第一個測試基於flickr圖像id的精確匹配，這些id包含在VOC 2007測試註釋中(這些id是爲後續的PASCAL測試集而故意保密的)。所有的PASCAL圖片，以及大約一半的ILSVRC圖片，都來自flickr.com。在4952個匹配項中找到31個(0.63%)。

第二次檢查使用GIST[30]描述符匹配，它在[13]中顯示，在大型(> 100萬)圖像集合中，具有出色的近重複圖像檢測性能。在[13]之後，我們計算了所有ILSVRC 2012 trainval和PASCAL 2007測試圖像的32×32像素扭曲版本的GIST描述符。

GIST描述符的歐幾里德距離最近鄰匹配顯示了38張近似重複的圖像(包括flickr ID匹配找到的31張)。匹配的JPEG壓縮級別和分辨率略有不同，裁剪程度也較低。這些發現表明重疊很小，不到1%。對於VOC 2012，由於flickr id不可用，我們只使用GIST匹配方法。根據GIST匹配，2012年VOC檢測圖像中有1.5%在ILSVRC 2012培訓中。VOC 2012的數據略高，可能是因爲這兩個數據集在時間上比VOC 2007和ILSVRC 2012更接近。

G. Document changelog：

這份文件記錄了R-CNN的進展。爲了幫助讀者理解它是如何隨着時間變化的，這裏有一個簡要的變更日誌來描述修訂。

v1初始版本。2014年

v2 CVPR相機準備修訂。包括(1)從較高的學習速率開始進行微調(0.001而不是0.0001)，(2)在準備CNN輸入時使用上下文填充，以及(3)通過邊界盒迴歸來修復定位錯誤，從而顯著提高檢測性能。ILSVRC2013檢測數據集上的

v3結果以及與OverFeat的比較被集成到幾個部分中(主要是第2部分和第4部分)。

表7:ILSVRC2013檢測測試集的每級平均精度(%)。

圖8:從val2上實現31.0%映射的配置中對val2set的示例檢測。每幅圖像都是隨機採樣的(這些都不是策劃的)。所有精度大於0.5的檢測都顯示出來了。每個檢測都使用預測類和來自檢測器的精確回憶曲線的檢測精度值進行標記。建議使用數碼變焦觀看。

圖9:更多隨機選擇的示例。有關詳細信息，請參見圖8說明。建議使用數碼變焦觀看。

圖10:策劃的示例。我們選擇每一張圖片是因爲我們覺得它令人印象深刻、令人驚訝、有趣或有趣。建議使用數碼變焦觀看。

圖11:更多的示例。有關詳細信息，請參見圖10的說明。建議使用數碼變焦觀看。

圖12:我們展示了VOC 2007測試中約1000萬個區域中的24個區域，其中20個單元的激活度最高。每個蒙太奇是由單位的(y, x，通道)位置在6×6×256維池5特徵圖。每個圖像區域都是用白色覆蓋的單元接受域繪製的。激活值(我們通過除以通道中所有單位的最大激活值來正常化)顯示在接受域的左上角。最佳觀看數碼變焦。