【論文翻譯】【一】 Rich feature hierarchies for accurate object detection and semantic segmentation

1.Rich feature hierarchies for accurate object detection and semantic segmentation(2014)

 

Abstract

用PASCAL VOC數據集來進行衡量的目標檢測性能在近些年趨於穩定,其中性能最好的方法是使用一個複雜的整體系統(complex ensemble system),而不是通常將多個低層圖像特性與高層上下文組合在一起(typically combine multiple low-level image features with high-level context)。

本文提出了一種簡單可擴展的算法,即RCNN(Regions with CNN features),比現在最好的結果(VOC 2012)可以提高30%的平均準確度(mAP),可以達到53.3%。

這個算法包括兩個方面:

(1)我們可以把大容量的卷積神經網絡變成自底向上的候選區域,用於定位和分割對象

(2)當標記的訓練數據稀缺時,可以先對輔助數據集(任務)進行受監督的預訓練, 隨後是基於域進行特定調整,產生顯着的性能提升。

 

1.介紹

SIFT和HOG這兩個算法的性能在近年來提升緩慢,因爲它僅限於與V1層有聯繫,而V1層是靈長類動物視覺通路的第一層外皮層。但是識別往往還與下層的許多層次有關,所以我們推測,在視覺識別方面可能存在更有效的、分層的、多層次的算法來計算特徵。

Fukushima的神經認知機是一個由生物學啓發的具有平移不變性的分層模式識別模型,是這一類算法的一種較早的嘗試。但是這一嘗試缺少受監督的訓練算法。

        在Rumelhart等人的基礎上,LeCun等人發現通過支撐作用的隨機梯度下降訓練卷積神經網絡(CNNs)是一種有效的方法,這種模型超越了神經認識機。

        CNNs在20世紀90年代得到了廣泛的應用,但是隨着支持向量機的興起,CNNs不再流行。2012年,Krizhevsky等人在ILSVRC上顯示了更高的圖像分類精度,重新點燃了人們對CNNs的興趣。他們的成功源於訓練了一個120萬張標籤圖片的大型CNN,且加入了LeCun的CNN上的一些轉折(例如,max(x,0)校正非線性和“中途退出”正則化)

        在2012年ILSVRC研討會上,關於ImageNet結果的重要性得到了激烈的討論,核心問題可以歸結爲:ImageNet上的CNN分類結果在多大程度上可以推廣到PASCAL VOC挑戰上的目標檢測結果。

        我們我們通過縮小圖像分類和目標檢測之間的差距來回答這個問題。本文首次表明,與基於簡單的方向梯度直方圖(Histogram of Oriented Gradient, HOG)特徵的系統相比,PASCAL VOC上的CNN可以顯著提高目標檢測性能。爲了實現這個結果,我們關注兩個問題:用深度網絡進行對象的定位和用較少的有註釋的標註數據訓練一個大容量的模型。

        與圖像分類不同,檢測需要在圖像中定位(可能有很多)對象。一種方法將定位定義爲一個迴歸問題。然而,Szegedy等人和我們自己的研究表明,這種策略在實踐中可能並不成功(他們報告了2007年VOC的30.5%,而我們的方法實現了58.5%)。另一種方法是構建一個滑動窗口檢測器。CNNs已經以這種方式使用了至少20年,通常用於約束對象種類,例如人臉和行人。爲了保持較高的空間分辨率,這些cnns通常只有兩個卷積層和池化層。我們還考慮採用滑動窗口方法。然而,在我們的網絡中,有5個卷積層,在輸入圖像中有非常大的接受域(195 x 195像素)和步長(32 x 32像素),這使得在滑動窗口範例中精確定位成爲一個開放的技術挑戰。

        相反,我們通過在“區域識別”範式內操作來解決CNN的定位問題,該範式在對象檢測和語義分割兩方面都取得了成功。在測試時,我們的方法對輸入圖像生成2000個左右的獨立分類的候選區域,利用CNN從每個建議中提取一個固定長度的特徵向量,然後用特定分類的線性svm對每個區域進行分類。我們使用一個簡單的技術(仿射圖像扭曲)來計算每個建議區域的固定大小的CNN輸入,而不管該區域的形狀如何。圖1顯示了我們方法的概述,並突出顯示了我們的一些結果。由於我們的系統將候選區域與CNN相結合,所以我們將方法命名爲R-CNN:具有CNN特徵的區域。

圖1 目標檢測系統概述

我們的系統包括這四個步驟:(1)獲取一個輸入圖像 (2)提取2000個左右自底向上的候選區域 (3)使用一個大型卷積神經網絡(CNN)計算每個建議的特徵 (4)使用特定於類的線性支持向量機對每個區域進行分類。

R-CNN在PASCAL VOC 2010上的平均精度(mAP)達到53.7%。作爲對比,空間金字塔和詞袋模型方法使用相同的候選區域,但平均精度只能達到35.1%。流行的可變型部件模型的平均精度爲33.4%

    檢測面臨的第二個挑戰是標記數據稀缺,目前可用的數量不足以訓練一個大型CNN。解決這個問題的傳統方法是使用無監管預訓練,然後進行有監管的微調。本文的第二個主要貢獻是證明了在大輔助數據集(ILSVRC)上進行有監管的預訓練,然後在小數據集(PASCAL)上進行特定領域的微調,是在數據匱乏時學習大容量CNNs的有效範例。在我們的實驗中,用於檢測的微調將mAP性能提高了8個百分點。經過微調後,我們的系統在VOC 2010上的mAP爲54%,而基於HOG的高調諧可變形部件模型(DPM)的mAP爲33%。我們還指出了同時代的Donahue等人的工作,他們指出Krizhevsky的CNN可以作爲黑盒特徵提取器(無需微調)使用,在場景分類、細粒度子分類和領域適應等多個識別任務上都有出色的性能。

我們的系統也相當高效。唯一的類特定計算是一個相當小的矩陣-向量乘積和貪婪的非最大抑制。這個計算屬性在所有種類上遵循共享的特性,在空間上也比之前使用區域特徵的方法低兩個數量級。

理解我們的方法的失效模式對改善這個方法來說也很重要,所以我們使用檢測分析工具Hoiem來報告結果。作爲這個分析的一個立即得出的結果,我們證明簡單的邊界框迴歸方法顯著減少定位錯覺的這個說法是占主導地位的錯誤模式。

在發展中技術細節之前,我們注意到因爲R-CNN操作區域可以自然的擴展到語義分割的任務。通過少量的修改,我們在PASCAL VOC的分割任務上也取得了有競爭力的結果,在2011年的VOC測試集上平均分割準確率爲47.9%。

 

2.用R-CNN進行目標檢測

        我們的目標檢測系統由三個模塊組成。第一種模塊生成分類獨立的候選區域。這些候選區域定義了一組對我們的檢測器有用的候選檢測。第二個模塊是一個大型的卷積神經網絡,它從每個區域提取一個固定長度的特徵向量。第三個模塊是一組特定於類的線性支持向量機。在本節中,我們將介紹每個模塊的設計決策,描述它們的測試時使用情況,詳細說明如何學習它們的參數,並在PASCAL VOC 2010-12上顯示結果。

 

2.1.模塊設計

候選區域。最近的許多論文都提供了生成分類獨立的候選區域的方法。他們將CNN應用於在規則間隔的方形作物上檢測有絲分裂細胞,這是候選區域的一個特例。雖然R-CNN與特定候選區域方法無關,但是我們使用有選擇性的搜索與先前的檢測工作進行對照比較。

特徵提取 我們使用我們自己實現的Krizhevsky等人的CNN,從每個候選區域中提取4096維特徵向量,我們建立在開源cuda-convnet代碼之上。特徵是通過前向傳播通過五個卷積層和兩個全連接層減去平均的224X224 RGB圖像來計算的。 我們建議讀者參考瞭解更多的網絡架構細節。 第3節中的消融研究顯示了最後三層每層特徵的性能如何變化。

  爲了計算一個候選區域的特徵,我們必須首先將該區域中的圖像數據轉換爲與我們的CNN兼容的形式。網絡結構需要輸入固定的224X224像素尺寸大小。在我們任意形狀區域的許多可能的變換中,我們選擇最簡單的。不管候選區域的大小或寬高比如何,我們將圍繞其邊界框中的所有像素到所需的尺寸大小。這導致每個區域的固定長度特徵向量。 圖2顯示了圍繞訓練區域的隨機抽樣。失真比人們可能想象的先驗小。

https://images2015.cnblogs.com/blog/1043575/201704/1043575-20170410214052422-589755118.png

 2.2 結論

  我們在一張測試圖像上進行選擇性搜索,以提取大約2000個候選區域(我們在所有實驗中使用選擇性搜索的“快速模式”)。我們把每一個候選區域都圍成要求的形狀大小,並通過CNN向前傳播,以便從所需的層讀取特徵圖。然後,對於每個類,我們使用針對該類訓練的SVM來對每個提取的特徵圖進行評分。給定圖像中的所有得分區域,我們應用貪心非極大抑制(對於每個類別,獨立地)排除區域,如果它具有與交叉聯合(IoU)重疊有着較高得分的非抑制區域大於學習閾值 (所有實驗中爲0.3)。

  運行時間分析 兩個關鍵屬性使結論非常高效。首先,所有類別共享所有CNN參數。 第二,與其他常見方法相比,由CNN計算的特徵向量是低維的,例如具有視覺詞袋模型編碼的空間金字塔。例如,UVA檢測系統中使用的特徵比我們(360k對4k維)大兩個數量級。

  這種共享的結果是計算候選區域和特徵(在GPU上的13s /圖像或在CPU上的53s /圖像)的時間花費平攤到在所有類別上。 唯一的指定類計算是特徵與SVM權重和非最大抑制之間的點積。在實踐中,一幅圖像的所有點積都被分批成爲單個矩陣矩陣乘積。特徵矩陣通常爲2000x4096,SVM權重矩陣爲4096xN,其中N爲類數。

  雖然不是很明顯,我們的方法應該容易地擴展到成千上萬的對象類,而不使用近似的技術,如散列法。 即使有100k類,在現代多核CPU上進行矩陣乘法只需10秒。 此外,這種效率不僅僅是使用候選區域和共享特徵的結果。 由於其高維度特徵,UVA系統的速度將會降低兩個數量級,而需要134GB的內存才能存儲100k線性預測器,相比之下,我們的低維特性只需1.5GB。

  將我們的方法與Dean等人最近的工作使用DPM和散列的可擴展檢測進行對比也是有趣的。 他們在VOC 2007上報告了大概16%的mAP,每個圖像的運行時間爲5分鐘,當引入10k干擾類時。 通過我們的方法,10k個檢測器可以在CPU上運行大約一分鐘,並且由於沒有近似值,mAP將保持在48%。

2.3 訓練

  CNN 預訓練 我們使用具有圖像水平的註釋(即無邊框標籤)的大型輔助數據集(ILSVRC 2012)來“預訓練”CNN。 除了兩個小的變化(簡化實現)之外,我們緊密地遵循了[26]的方法。我們分享了在DeCAF技術報告中詳細介紹的相同的實現和訓練流程,並向讀者介紹細節。簡而言之,我們的CNN幾乎符合[26]的表現,在ILSVRC 2012驗證集上獲得了排名第一的錯誤率僅高出2.2個百分點。這種差異可能是由於我們的簡化。

  CNN 微調 爲了使CNN適應新的任務(檢測)和新的領域(圍繞的PASCAL窗口),我們只使用PASCAL的包圍候選區域繼續訓練CNN參數。在預訓練期間,我們將學習率以10的倍率降低三次。然而,最後的學習率並沒有取得什麼進展。爲了進行微調,我們開始了隨機梯度下降(SGD),學習率是初始預訓練率的0.01倍。 這允許微調進行,而不會使初始化崩潰。我們對待所有候選區域以≥ 0.5 IoU與真實標定框重疊,作爲該標定框類的正樣本,其餘作爲反樣本。在每次SGD迭代中,我們採樣兩張訓練圖片並且通過從每個圖像中的大約2000箇中抽取64個候選區域來構建大小爲128的小塊。由於目標對象很少見,所以我們發現有必要對採樣進行偏移平均每個小塊的1/4是正樣本。

  目標類別分類器 考慮訓練二分類器來檢測汽車。很明顯,緊緊圍繞汽車的圖像區域應該是一個正樣本。同樣地,很顯然,與汽車無關的背景區域應該是一個負樣本。 較不清楚的是如何標註部分重疊汽車的區域。我們用IoU重疊閾值來解決這個問題,小於閾值的區域被定義爲反樣本。通過網格搜索{0,0.1,...,0.5}選擇重疊閾值0.3。我們發現,仔細選擇這一閾值至關重要。將其設置爲0.5,如[36]所示,將使得mAP降低5點。同樣,將其設置爲0會將mAP降低4點。正樣本被簡單地定義爲每個類的真實標定框。

  一旦提取了特徵並應用了訓練標籤,我們可以優化每個類的一個線性SVM。 由於訓練數據太大而不適合存儲,所以我們採用了standard hard negtive mining method。我們發現該方法迅速收斂,實際上在所有圖像中只有單個通道,mAP纔會停止增長。訓練是快速的,給定預先計算的特徵向量,我們存儲在磁盤上。所有20個PASCAL目標檢測SVMs的訓練時間(5k圖像)在單個核上需要大約1.5小時。在 GPU上每個區域的特徵計算需要大約5ms。

2.4 在PASCAL VOC 2010-12上的結果

  根據PASCAL“最佳實踐”指南,我們對VOC 2007數據集進行了所有設計決策。對於VOC 2010-12數據集的最終結果,我們對VOC 2012訓練的CNN進行了微調(以避免在驗證集上過擬合)。然後,我們在VOC 2012訓練中訓練了我們的檢測SVM,並將測試結果提交給評估服務器一次。

  表1顯示了VOC 2010的完整結果。我們將我們的方法與三個強基準進行比較,但不包括使用背景重排的系統的結果。這樣的回顧提高了所有的方法,並且與本文的重點是正交的(爲了清楚起見,我們分離出個別的窗口,所以沒有使用背景信息)。最相似的對比是UVA系統來自Uijlings等人[36],因爲我們的系統使用相同的候選區域算法。爲了對區域進行分類,他們的方法構建了一個四級空間金字塔,並用密集採樣的SIFT,擴展的對數SIFT和RGB-SIFT算子填充,每個矢量都用4000字的碼本進行量化。使用直方圖交點內核SVM進行分類。與他們的多特徵相比,非線性內核SVM方法,我們實現了mAP的大幅度改進,從35.1%到43.5%的mAP,同時也快得多。我們的方法在VOC 2011/12測試中達到類似的性能,mAP爲43.2%。

https://images2015.cnblogs.com/blog/1043575/201704/1043575-20170411120521954-958490231.png

3. 可視化,消融和錯誤模式

  CNN在實踐中運作良好,但是它學到了什麼,其設計的哪些方面對於其成功至關重要,以及它如何失敗?

3.1 可視化學習特徵

   第一層濾波器可以直接可視化並且易於理解。它們捕獲定向的邊緣和對立的顏色。理解後續層次更具挑戰性。Zeiler和Fergus在[40]中提出了一種有吸引力的去卷積方法。 我們提出一個簡單的(和補充的)非參數方法,直接顯示網絡學到的內容。

  這個想法是在網絡中列出一個特定的單位(人造“神經元”),並將其視爲自己的目標檢測器。也就是說,我們在大量的延伸候選區域(約1000萬)中計算神經元的激活函數,將候選區域從最高到最低的響應進行排序,執行非極大抑制(在每個圖像內),然後顯示最高得分區域。我們的方法讓所選單元“自己說話”,通過準確地顯示它觸發的輸入。 因爲我們避免平均,我們有機會看到多種視覺模式,並深入瞭解單元計算的不變性。

   我們可以從pool5層中可視化單元,這是網絡的第五個maxpolled輸出層和最終卷積層。pool5層的特徵圖是6x6x256 = 9216維。忽略邊界效應,每個pool5單元在原始227x227像素輸入中具有195x195像素的接受域。 一箇中央pool5單元具有幾乎全局的視野,而靠近邊緣的則有一個小得多的剪切支撐。我們選擇了這個層,因爲它是最後一個層次,它的單元具有緊湊的接收域,使得更容易顯示圖像的哪個部分負責激活。 另外,我們對下一層fc6學習的表示獲得了一些直觀理解,因爲它需要pool5激活的多個加權組合。

  圖3顯示了我們在VOC 2007訓練中進行了微調的來自CNN的六個單元的前16個激活。 前兩個單元被選中,因爲它們對應於貓SVM中的大的正負權重(在pool5中訓練)。第一種是選擇貓臉,而第二種是選擇其他動物面孔(主要是狗)。我們還可以看出羊和人的單元。最後兩行表示更通用的單元; 一個在一定寬度的對角線上觸發,另一個在紅色斑點上觸發。這些可視化表明了pool5特徵的豐富性並暗示其中的多樣性,單位範圍從特定的動物面孔到更通用的形狀和紋理。 隨後的全連接層具有對這些豐富特徵的大量組合進行建模的能力。額外的可視化包括在附錄,圖6中。

3.2 消融研究

  性能逐層,無需微調。爲了瞭解哪些層對於檢測性能至關重要,我們在VOC 2007數據集上分析了每個CNN最後三層的結果。第3.1節簡要描述了池化層5。最後兩層總結如下。

  fc6層全連接到pool5層。 爲了計算特徵,它通過pool5層特徵圖(重構爲9216維向量)乘以4096x9216的權重矩陣和然後添加一個偏置向量。 該中間矢量是分量半波整流(即x<- max(0,x))。
  fc7層是網絡的最後一層。 它通過將由fc6層計算的特徵乘以4096x4096權重矩陣,並且同樣添加偏置矢量並施加半波整流。

  我們首先來看看CNN的結果,在PASCAL上沒有進行微調,即所有的CNN參數都僅在ILSVRC 2012上進行了預處理。分析性能逐層圖(表2第1-3行)顯示,fc7層的特徵與fc6層的特徵相比具有很少或沒有優勢。 這意味着可以刪除CNN參數的29%或約1680萬,而不會降低mAP。更令人驚訝的是,刪除fc7和fc6都能產生相當好的結果,即使僅使用6%的CNN參數來計算pool5特徵。CNN的大部分表示能力來自卷積層,而不是來自全連接層。這個發現表明在計算任意大小圖像的HOG意義上的密集特徵圖的潛在實用性,通過僅使用CNN的卷積層。這種表示將能夠在pool5層豐富的特徵之上使用包括DPM的滑動窗口檢測器。
  顏色 爲了瞭解我們的系統從顏色中獲益多少(與基於HOG的方法相比,這在很大程度上忽視它),我們在灰度級空間中測試了我們的預訓練的CNN。從灰度版本的PASCAL圖像上對fc6層特徵進行SVMs的訓練,並對灰度圖像進行測試,將VOC 2007測試中的mAP從43.4%降低到40.1%。

  性能逐層,微調 現在,我們在對VOC 2007訓練的參數進行了微調後,再來看看CNN的結果。 改進效果是顯着的。微調使mAP提高4.6點至48.0%。 對於fc6和fc7,微調的提升比pool5大得多。 這可能表明,從ImageNet中學習的豐富的pool5特徵對於PASCAL來說已經足夠了,大多數改進是通過學習如何在fc6中進行最優組合而獲得的。

  與近期特徵學習方法的比較 在PASCAL檢測中已經嘗試了相對較少的特徵學習方法。我們來看兩種最新的基於可變形零件模型(DPM)的方法。作爲參考,我們還包括標準的基於HOG的DPM的結果。

  第一個DPM特徵學習方法,DPM ST,增加了具有“素描令牌”概率直方圖的HOG特徵。直觀上,素描令牌是通過圖像塊中心的輪廓的緊密分佈。素描令牌概率是通過一個隨機森林在每個像素點上進行計算的,被訓練爲將35x35像素塊分類成150個素描標記或背景之一。

  第二種方法,DPM HSC,使用稀疏編碼的直方圖代替HOG。 爲了計算HSC,使用100個7x7像素的(灰度)原子學習詞典在每個像素處求解稀疏編碼激活。所得到的激活以三種方式(全部和兩個半波)進行調整,空間池化,單元l2歸一化,然後進行功率變換(x<- sign(x)|x|a)。

  我們所有的CNN方法都超過三個DPM基線,包括使用特徵學習的兩個。 與最新版本相比DPM僅使用HOG功能,我們的mAP超過14點:48.0%vs 33.7% - 相對提高42%。 HOG和素描令牌的組合在單獨的HOG下獲得2.5個mAP點,而HSC在HOG上提高了4點的MAP(與其內部的單獨的DPM基線相比,兩者均使用非公開DPM的實現不如開源版本)。 這些方法分別達到29.1%和34.3%的mAPs。

3.3 檢測誤差分析

  我們應用了Hoiem等人的優秀檢測分析工具,爲了揭示我們的方法的錯誤方式,瞭解微調如何改變他們,並且看看我們的錯誤類型與DPM的比較。 分析工具的完整總結超出了本文的範圍,我們鼓勵讀者參考[23]瞭解一些更精細的細節(如“歸一化AP”)。由於分析最好在相關圖譜的背景下被吸收,所以我們在圖4和圖5的標題中提出討論。

4. 語義分割

  區域分類是語義分割的標準技術,使我們能夠輕鬆地將我們的CNN應用於PASCAL VOC分割賽事。爲了促進與當前領先的語義分割系統(稱爲O2P爲“二階池化”)進行直接比較,我們在他們的開源框架內工作。O2P使用CPMC爲每個圖像生成150個候選區域,使用支持向量迴歸(SVR)預測每個區域的每個類別的質量。 他們的方法的高性能是由於CPMC區域的質量和多種功能類型(SIFT和LBP的豐富變體)的強大的二階池化。 我們還注意到,Farabet等最近在使用CNN作爲每個像素的分類器的幾個密集場景標記數據集(不包括PASCAL)上展示了良好的結果。

  我們遵循[2,5]並擴展PASCAL分割訓練集,以包括Hariharan等提供的額外註釋。設計決策和超參數在VOC 2011驗證集上被交叉驗證。 最終測試結果僅評估一次。

  CNN特徵進行細分 我們評估了CPMC區域計算特徵的三種策略,所有這些策略都是通過將該區域的矩形窗口包圍在到224x224來開始的。 第一個策略(full)忽略了該區域的形狀,並直接在包圍的窗口上計算CNN特徵,就像我們檢測到的那樣。然而,這些特徵忽略該區域的非矩形形狀。 兩個區域可能具有非常相似的邊界框,同時具有非常小的重疊。 因此,第二種策略(fg)僅在區域的前景模版上計算CNN特徵。 我們用平均輸入替換背景,使平均值減去後的背景區域爲零。 第三個策略(full + fg)簡單地連接full和fg特徵; 我們的實驗驗證了它們的補充。

  VOC 2011的結果 表3顯示了與O2P相比,VOC 2011驗證集的結果總結(參見附錄中的表5,以獲得完整的每個類別的結果)。在每個特徵計算策略中,fc6層始終優於fc7層,下面的討論參考fc6層特徵。fg策略比full略勝一籌,表明模板區域的形狀提供更強的信號,匹配直覺。 然而,full + fg的平均精度達到47.9%,我們的最佳結果爲4.2%(略遜於O2P),表明即使給出了fg特徵,由full特徵提供的背景提供了高度的信息。值得注意的是,在我們的full+ fg特徵上訓練20個SVR需要大約一個小時在單個核上,而在O2P特徵上訓練需10個小時。

  在表4中,我們展示了VOC 2011測試集的結果,將我們的最佳表現方法fc6(full + fg)與兩個強基準進行了比較。 我們的方法在21個類別中的11箇中實現了最高的分割準確度,並且最大的總分割準確率爲47.9%,在各個類別之間平均(但可能與任何合理的誤差範圍內的O2P結果有關)。更好的表現可以通過微調實現。

5. 討論

  利用大型輔助數據集是我們方法成功的關鍵。 爲什麼不給更多的訓練數據到其他方法? 一個問題是從不同領域的數據中受益,這是不尋常的,並且被標記爲不同的任務。例如,訓練PASCAL的DPM需要PASCAL類別的邊界框註釋。此外,[42]表明即使有更多數據可用,DPM也不容易從中受益。 第二個問題是許多方法缺乏大量的共享參數來預訓練。 例如,一個詞袋模型的方法不太可能受益於在ImageNet上訓練其碼本。這些問題在將來可能會被克服,但它們是自己的研究工作。

  本文證明了一個強大的實驗說明:大型卷積神經網絡在利用“大視覺數據”來學習豐富的特徵層次是非常有效的,這將在黃金標準PASCAL VOC挑戰賽中產生以前無法實現的目標檢測結果。這不是一個小小的壯舉。從檢測器的優勢來看,ILSVRC 2012的標籤很弱,甚至缺少關鍵視覺概念(如人物)的註釋。CNN有能力輕鬆將這些數據轉化爲最佳性能的檢測結果是真正令人興奮的。我們通過使用計算機視覺和深度學習的經典工具(自下而上的候選區域和卷積神經網絡)的組合來實現這些結果是重要的。 這兩者不是對立的,而是自然而且不可避免的夥伴。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章