You Only Look Once論文中文翻譯

You Only Look Once

統一的實時目標檢測

Abstract

 我們提出YOLO,一種新的目標檢測方法。以前的對目標檢測的工作重新使用分類器來執行檢測。相反,我們將目標檢測框架爲迴歸問題,空間分離的邊界框和相關類概率。單個神經網絡在一次評估中直接從完整圖像預測邊界框和類概率。 由於整個檢測流水線是單個網絡,因此可以直接優化端到端的檢測性能。

  我們的統一架構非常快。我們的基本YOLO模型以每秒45幀的速度實時處理圖像。較小版本的網絡,快速YOLO,速度達到一個驚人的每秒155幀,同時仍然實現其他實時檢測器的兩倍的mAP。與現有技術的檢測系統相比,YOLO產生更多的定位誤差,但不太可能預測背景上的假陽性。 最後,YOLO學習目標的非常一般的表示。 它從其他檢測方法,包括DPMRCNN,當概括從自然圖像到其他領域如藝術品。

1、Introduction

  人類看一眼圖像,立即知道圖像中的物體,它們在哪裏,以及它們如何相互作用。人類視覺系統是快速和準確的,允許我們執行復雜的任務,如駕駛與無意識的思想。快速,用於目標檢測的準確算法將允許計算機在沒有專門的傳感器的情況下驅動車輛,使得輔助設備能夠向人類用戶傳送實時場景信息,以及解鎖潛在的通用目的,響應機器人系統。

  當前的檢測系統重新使用分類器來執行檢測。爲了檢測目標,這些系統獲取該目標的分類器,並在測試圖像中的不同位置和尺度對其進行評估。像可變形零件模型(DPM)的系統使用滑動窗口方法,其中分類器在整個圖像上均勻間隔的位置運行[10]

  更近的方法,如RCNN使用區域提議方法首先在圖像中生成潛在的邊界框,然後在這些提議的框上運行分類器。分類後,後處理用於細化邊界框,消除重複檢測,並基於場景中的其他目標重新分組框[13]。這些複雜的管道是緩慢和難以優化,因爲每個個別組件必須單獨進行培訓。

  我們將目標檢測作爲單個迴歸問題,直接從圖像像素到邊界框座標和類概率。使用我們的系統,您只需要在圖像上查看一次(YOLO),以預測出現的目標及其位置。

  YOLO非常簡單:參見圖1.單個卷積網絡同時預測這些框的多個邊界框和類概率。 YOLO對整個圖像進行訓練,直接優化檢測性能。這種統一的模型比傳統的目標檢測方法有幾個好處。

 

1:YOLO檢測系統。 使用YOLO處理圖像簡單直接。 我們的系統(1)將輸入圖像調整爲448×448,(2)在圖像上運行單個卷積網絡,以及(3)通過模型的置信度閾值所得到的檢測。

  首先,YOLO是非常快。由於我們將檢測框架作爲迴歸問題,我們不需要複雜的管道。我們只是在測試時在一個新的圖像上運行我們的神經網絡來預測檢測。我們的基礎網絡以每秒45幀的速度運行,在Titan X GPU上沒有批處理,而快速版本的運行速度超過150 fps。這意味着我們可以實時處理流視頻,延遲小於25毫秒。此外,YOLO實現了其他實時系統的平均精度的兩倍多。對於我們的系統在網絡攝像頭上實時運行的演示,請參閱我們的項目網頁:

http://pjreddie.com/yolo/.

  第二,YOLO在做圖像預測時考慮全局圖像。與滑動窗口和基於區域提議的技術不同的是YOLO在訓練和測試時間看到整個圖像,因此它隱含地編碼關於類的上下文信息以及它們的外觀。Fast RCNN,頂部檢測方法[14],錯誤背景補丁在圖像中的目標,因爲它看不到更大的上下文。與fast RCNN相比,YOLO的背景誤差數量少於一半。

  第三,YOLO學習目標的可概括表示。當對自然圖像進行訓練並在藝術品上進行測試時,YOLO大幅優於DPMRCNN等頂級檢測方法。由於YOLO是高度可概括的,當應用於新域或意外輸入時,不太可能分解。

  YOLO仍然落後於最先進的檢測系統的精度。雖然它可以快速識別圖像中的目標,但它努力精確地本地化一些目標,特別是小的目標。我們在我們的實驗中進一步研究這些權衡。

  我們的所有培訓和測試代碼都是開源的。還可以下載各種預訓練模型。

2、統一檢測

  我們將目標檢測的單獨組件統一爲單個神經網絡。我們的網絡使用來自整個圖像的特徵來預測每個邊界框。它還同時預測圖像的所有類的所有邊界框。這意味着我們的網絡全球的原因是全圖像和圖像中的所有目標。YOLO設計實現端到端訓練和實時速度,同時保持高平均精度。

  我們的系統將輸入圖像分成S×S大小的網格。如果目標的中心落入網格單元,則該網格單元負責檢測該目標。

  每個網格單元預測這些框的B個邊界框和置信度得分。這些置信度分數反映了模型在框中包含目標的自信程度,以及框架在預測框中的準確性。正式我們將信心定義爲Pr(目標)* IOU真值預測。如果該單元中不存在目標,則置信分數應爲零。否則,我們想要置信度得分等於預測框和真實目標之間的交集(IOU)。

  每個邊界框包括5個預測:xywh和置信度。(xy)座標表示相對於網格單元的邊界的框的中心。wh相對於整個圖像預測寬度和高度。最後,置信預測表示預測的框和任何真實框之間的IOU

  每個網格單元還預測C條件類概率Pr(類i |目標)。這些概率以包含目標的網格單元爲條件。我們只預測每個網格單元的一組類概率,而不考慮框B的數量。

  在測試時,我們乘以條件類概率和單個框的置信預測,這給出了每個框的類特定的置信分數。這些分數編碼該類出現在框中的概率和預測框適合目標的程度。

 

 

2:模型。 我們的系統將檢測建模爲迴歸問題。 它將圖像分成S×S網格,並且對於每個網格單元,預測B個邊界框,那些框的置信度和C類概率。這些預測被編碼爲S×S×(B * 5 + C)張量。

  爲了評估YOLO對PASCAL VOC數據集的影響,我們使用S = 7,B = 2。PASCAL VOC有20個標記類,因此C = 20。我們的最終預測是7×7×30張量。

  2.1. 網絡設計

  我們將此模型實現爲卷積神經網絡,並在PASCAL VOC檢測數據集上進行評估[9]。 網絡的初始卷積層從圖像中提取特徵,而完全連接的層預測輸出概率和位置座標。

  我們的網絡架構的靈感來自圖像分類的GoogLeNet模型[34]。我們的網絡有24個卷積層,其次是2個完全連接的層。與Lin等人[22]類似,我們不使用GoogLeNet使用的初始模塊,而是使用1×1還原層,然後是3×3卷積層。 完整的網絡如圖3所示。

  我們還訓練一個快速版本的YOLO設計版本,以推動快速目標檢測的邊界。快速YOLO使用具有較少卷積層(9而不是24)的神經網絡和在那些層中較少的過濾器。除了網絡的大小,YOLO和Fast YOLO之間的所有訓練和測試參數都相同。

 

3:架構。 我們的檢測網絡有24個卷積層,其次是2個完全連接的層。交替的1×1卷積層減少來自先前層的特徵空間。 我們在ImageNet分類任務上以一半分辨率(224×224輸入圖像)預處理卷積層,然後將分辨率加倍以進行檢測。

  我們的網絡的最終輸出是7×7×30張量的預測。

2.2 訓練

  我們在ImageNet 1000類競爭數據集上預先訓練我們的卷積層[30]。對於預訓練,我們使用圖3的前20個卷積層,隨後是平均池層和完全連接的層。我們訓練這個網絡大約一個星期,在ImageNet 2012驗證集上實現88%的單一作物的前5精度,精度與Caffe的模型中GoogLeNet模型相當[24]。我們使用Darknet框架進行所有的訓練和推理[26]

  然後我們轉換模型以執行檢測。 Ren et al等人表明將卷積和連接層添加到預訓練網絡可以提高性能[29]。根據他們的例子,我們添加四個卷積層和兩個完全連接的層與隨機初始化的權重。檢測通常需要細粒度的可視信息,因此我們將網絡的輸入分辨率從224×224增加到448×448

  我們的最終層預測類概率和邊界框座標。我們通過圖像寬度和高度將邊界框寬度和高度歸一化,使得它們落在01之間。我們將邊界框xy座標參數化爲特定網格單元位置的偏移,使得它們也在01之間。

  我們對最後一層使用線性激活函數,所有其他層使用以下泄漏校正線性激活:

 

  我們優化了模型輸出中的平方誤差。我們使用和平方誤差,因爲它容易優化,但它不能完美地與我們的最大化平均精度的目標一致。它同樣對分類誤差加權定位誤差,這可能不是理想的。此外,在每個圖像中,許多網格單元不包含任何目標。這將這些細胞的“置信度”分數置位零,通常強迫來自包含目標的細胞的梯度。這可能導致模型不穩定,導致訓練早期發散。

  爲了彌補這一點,我們增加了邊界框座標預測的損失,並減少了對不包含目標的框的置信預測的損失。我們使用兩個參數λcoord和λnoobj來完成這個。我們設置λcoord = 5和λnoobj =0 .5

  平方誤差也平等地加權大框和小框中的誤差。我們的誤差指標應該反映大盒子中的小偏差小於小盒子。爲了部分解決這個問題,我們直接預測邊界框寬度和高度的平方根,而不是寬度和高度。

  YOLO預測每個網格單元的多個邊界框。在訓練時,我們只需要一個邊界框預測器來負責每個目標。我們將一個預測器分配爲“負責”,用於基於哪個預測具有與真實目標最高的當前IOU來預測目標。這導致邊界框預測結果之間的專門化。每個預測變量在預測某些大小,縱橫比或目標類別方面變得更好,從而提高整體召回率。

  在訓練期間,我們優化以下的多部分損失函數:

 

  在訓練期間,我們優化以下的多部分損失函數:其中表示目標出現在單元格i中,並且表示單元格i中的第j個邊界框預測器對於該預測是“負責”的。

  注意,如果目標存在於該網格單元中,則損失函數僅懲罰分類誤差(因此前面討論的條件類概率)。如果該預測器對於真實框是“負責”的(即,具有該網格單元中的任何預測器的最高IOU),它也僅懲罰邊界框座標誤差。

  我們在PASCAL VOC 20072012的培訓和驗證數據集上訓練網絡約135個時期。在2012年測試時,我們還包括了VOC 2007測試數據用於培訓。在整個訓練中,我們使用批次大小爲64,動量爲0.9,衰減爲0.0005

  我們的學習率安排如下:對於第一個時代,我們將學習率從10 -3緩慢提高到10 -2。如果我們從高學習率開始,我們的模型經常由於不穩定的梯度而發散。我們繼續訓練有10 -275epochs,然後10 -330epochs,最後10 -430epochs

  爲了避免過度擬合,我們使用dropout和廣泛的數據擴充。在第一個連接層之後,速率= 0.5的阻塞層阻止層之間的共適應[18]。對於數據增加,我們引入了高達原始圖像大小的20%的隨機縮放和平移。我們還在HSV色彩空間中將圖像的曝光和飽和度隨機調整至高達1.5倍。

2.3 推理

  就像在訓練階段,預測測試圖像的檢測只需要一個網絡評估。在PASCAL VOC數據集上,網絡預測每個圖像的98個邊界框和每個框的類概率。YOLO在測試時非常快,因爲它只需要一個網絡評估,不像基於分類器的方法。

  網格設計在邊界框預測中實施空間多樣性。通常,清楚目標落入哪個網格單元,並且網絡僅爲每個目標預測一個框。然而,在多個單元的邊界附近的一些大目標或目標可以由多個單元良好地定位。非最大抑制可以用於修復這些多重檢測。雖然對於性能而言不是關鍵的,因爲它對於RCNNDPM,非最大抑制在mAP中增加2-3%。

2.4 YOLO的侷限性

  YOLO對邊界框預測施加強空間約束,因爲每個網格單元僅預測兩個框,並且只能具有一個類。這個空間約束限制了我們的模型可以預測的附近目標的數量。我們的模型與羣體中出現的小物體(例如鳥羣)鬥爭。

  由於我們的模型學習從數據預測邊界框,它努力推廣到新的或不尋常的寬高比或配置的目標。我們的模型還使用相對粗糙的特徵來預測邊界框,因爲我們的架構具有來自輸入圖像的多個下采樣層。

  最後,當我們訓練一個近似檢測性能的損失函數時,我們的損失函數在小邊界框和大邊界框中處理相同的錯誤。大框中的小誤差通常是良性的,但是小框中的小誤差對IOU具有更大的影響。我們的主要錯誤來源是不正確的定位。

3、與其他檢測系統的比較

  目標檢測是計算機視覺中的核心問題。檢測管道通常從輸入圖像(Haar [25]SIFT [23]HOG [4],卷積特徵[6])提取一組魯棒特徵開始。 然後,使用分類器[36,21,13,10]或定位器[1,32]來識別特徵空間中的目標。這些分類器或定位器以滑動窗口方式在整個圖像上或在圖像中的一些區域子集上運行[35,15,39]。我們將YOLO檢測系統與幾個頂級檢測框架進行比較,強調了關鍵的相似點和差異。

  可變形零件模型(DPM)。變形的零件模型(DPM)使用滑動窗口方法目標檢測[10]DPM使用不相交管道來提取靜態特徵,分類區域,預測高評分區域的邊界框等。我們的系統用單個卷積神經網絡替換所有這些不同的部分。網絡執行特徵提取,邊界框預測,最大抑制和上下文推理。代替靜態特徵,網絡訓練串聯的特徵並且優化它們用於檢測任務。我們的統一架構導致比DPM更快,更準確的模型。

  RCNN.RCNN及其變體使用區域建議,而不是滑動窗口來找到圖像中的目標。選擇性搜索[35]生成潛在的邊界框,卷積網絡提取特徵,SVM分數框,線性模型調整邊界框,非最大抑制消除重複檢測。這個複雜流水線的每個階段都必須獨立進行精確調整,得到的系統非常慢,在測試時間每個圖像需要超過40[14]

  YOLORCNN有一些相似之處。 每個網格單元提出了潛在的邊界框並使用卷積特徵對那些框進行分數。 然而,我們的系統將空間約束放在網格單元建議上,這有助於減輕同一目標的多個檢測。 我們的系統還提出了很少的邊界框,每個圖像只有98個,而選擇性搜索約爲2000個。最後,我們的系統將這些單獨的組件組合成一個單獨的,聯合優化的模型。

  其他快速檢測器。Fastfaster RCNN專注於通過共享計算和使用神經網絡來提高區域而不是選擇性搜索來加速RCNN框架[14] [28]。 雖然他們提供的速度和準確性的改進超過RCNN,但仍然低於實時性能。

  許多研究工作集中在加速DPM管道[31] [38] [5]。 他們加速HOG計算,使用級聯,並推動計算到GPU。 然而,實際上只有30HzDPM [31]實時運行。

  而不是嘗試優化大型檢測管道的單個組件,YOLO完全拋出管道,並且設計快。

  單個類如面部或人的檢測器可以高度優化,因爲它們必須處理更少的變化[37]YOLO是一個通用的檢測器,可以同時檢測多種物體。

  Deep MultiBox。 與RCNN不同,Szegedy et al等人訓練卷積神經網絡以預測感興趣的區域[8],而不是使用選擇性搜索。MultiBox還可以通過用單個類別預測替換置信預測來執行單個目標檢測。然而,MultiBox不能執行一般的目標檢測,並且仍然只是一個更大的檢測管道中的一塊,需要進一步的圖像補丁分類。YOLOMultiBox都使用卷積網絡來預測圖像中的邊界框,但YOLO是一個完整的檢測系統。

  Over-FeatSermanet等人訓練卷積神經網絡以執行定位並使該定位器適於執行檢測[32]Over-Feat有效地執行滑動窗口檢測,但它仍然是一個不相交的系統。Over-Feat優化了本地化,而不是檢測性能。像DPM一樣,定位器在進行預測時僅看到本地信息。OverFeat不能推測全局上下文,因此需要大量的後處理來產生相干檢測。

  Multi-Grasp。 我們的工作在設計上類似於Redmon等人[27]的抓握檢測工作。我們的網格方法到邊界框預測是基於Multi-Grasp系統用於迴歸到抓握。然而,抓取檢測是比目標檢測簡單得多的任務。Multi-Grasp只需要爲包含一個目標的圖像預測單個可抓取區域。它不必估計目標的大小,位置或邊界或預測它的類,只找到適合抓握的區域。YOLO預測圖像中多個類的多個目標的邊界框和類概率。

4、實驗

  首先,我們在PASCAL VOC 2007上比較YOLO和其他實時檢測系統。爲了理解YOLORCNN變體之間的差異,我們探討了YOLOFast RCNN在性能最高的版本之一 的RCNN [14]。 基於不同的誤差曲線,我們顯示YOLO可以用於重排fast RCNN檢測,並減少背景誤報的誤差,提供顯着的性能提升。 我們還提出VOC 2012結果,並將mAP與當前最先進的方法進行比較。 最後,我們表明YOLO推廣到新的領域比其他探測器兩個藝術品數據集。

4.1. 與其他實時系統的比較

  目標檢測中的許多研究工作重點在於快速製作標準檢測流水線。 [5] [38] [31] [14] [17] [28]但是,只有Sadeghi et al等實際上產生實時運行的檢測系統(每秒30幀或更好)[31]。我們將YOLO與其在30Hz100Hz運行的DPMGPU實現進行比較。儘管其他努力沒有達到實時里程碑,我們還比較了它們的相對mAP和速度,以檢查目標檢測系統中可用的精度性能權衡。

  Fast YOLOPASCAL上最快的目標檢測方法;據我們所知,它是最快的現存目標檢測器。使用52.7%的mAP,它是以前的實時檢測工作的兩倍以上。YOLOmAP推向63.4%,同時仍保持實時性能。

  我們還使用VGG-16訓練YOLO。這個模型更準確,但也明顯慢於YOLO。它對於與依賴VGG-16的其他檢測系統的比較是有用的,但是由於它比實時慢,所以本文的其餘部分集中在我們更快的模型上。

  最快的DPM有效地加速DPM,而不犧牲許多mAP,但它仍然錯過2倍的實時性能[38]。它也受到DPM相對於神經網絡方法的相對低的檢測精度的限制。

  RCNNR代替選擇性搜索與靜態邊界框建議[20]。 雖然它比RCNN快得多,但仍然沒有實時性,並且由於沒有好的建議而產生顯着的準確性。

  Fast RCNN加速了RCNN的分類階段,但它仍然依賴於選擇性搜索,每個圖像可以花費大約2秒來生成邊界框提議。 因此,它具有高mAP,但是在0.5fps它仍然遠離實時。

  最近的faster RCNN取代了選擇性搜索與神經網絡提出邊界框,類似於Szegedy等人在我們的測試中,他們最準確的模型達到7 fps,而較小的,不太準確的模式以18 fps運行。 Faster RCNNVGG-16版本是10 個百分點的mAP或更高,但是也比YOLO6倍。Zeiler-Fergusfaster RCNN只比YOLO2.5倍,但也不太準確。

 

1:PASCAL VOC 2007上的實時系統。比較快速檢測器的性能和速度。 快速YOLO是PASCAL VOC檢測記錄的最快的檢測器,仍然是任何其他實時檢測器的兩倍。YOLO比快速版本更準確約10個百分點的 mAP,但仍然遠高於實時速度

4.2、VOC 2007數據集上誤差分析

  爲了進一步檢驗YOLO和最先進的檢測器之間的差異,我們將詳細分析VOC 2007的結果。我們將YOLO與Fast RCNN進行比較,因爲快速RCNN是最高性能的檢測器之一 P ASCAL,它的檢測是公開的。

  我們使用Hoiem等人的方法和工具。 [19]對於測試時的每個類別,我們查看該類別的前N個預測。 每個預測是正確的或者基於錯誤的類型分類:

  •正確:正確的類和IOU> .5

  •定位:正確的類,.1 <IOU <.5

  •類似:類相似,IOU> .1

  •其他:類錯了,IOU> .1

  •背景:對於任何目標,IOU <.1

4:誤差分析:fast RCNN與YOLO這些圖表顯示各種類別(在該類別中N =#個目標)的前N個檢測中的定位和背景錯誤的百分比。

  4顯示了在所有20個類中平均的每個錯誤類型的細分。

  YOLO努力正確地定位目標。 定位錯誤佔所有YOLO的錯誤比所有其他來源組合。 Fast RCNN使定位誤差少得多,但背景誤差大得多。 它的13.6%的頂部檢測是假陽性,不包含任何目標。 快速RCNN比YOLO預測背景檢測的可能性高出3倍。

4.3 結合fast RCNN和YOLO

  YOLO比Fast RCNN的背景錯誤少得多。通過使用YOLO來消除Fast RCNN的背景檢測,我們獲得了顯着的性能提升。對於RCNN預測的每個邊界框,我們檢查YOLO是否預測類似的框。如果是,我們基於由YOLO預測的概率和兩個框之間的重疊,給予該預測增強。

  最好的Fast RCNN模型在VOC 2007測試集上達到71.8%的mAP。當與YOLO組合時,其mAP增加了3.2%至75.0%。我們還嘗試結合頂部fast RCNN模型與其他幾個版本的Fast RCNN。這些集合在mAP中產生0.3%和0.6%之間的小的增加,詳見表2。

  來自YOLO的提升不僅僅是模型組合的副產品,因爲組合不同版本的Fast RCNN幾乎沒有什麼好處。相反,它是正確的因爲YOLO在測試時產生了不同的錯誤,它在提升Fast RCNN的性能方面非常有效。

  不幸的是,這種組合並沒有受益於YOLO的速度,因爲我們分別運行每個模型,然後組合結果。然而,由於YOLO是如此之快,與快速RCNN相比它不增加任何顯着的計算時間。

 

2:對VOC 2007的模型組合實驗。我們檢查將各種模型與最佳版本的Fast RCNN組合的效果。 其他版本的Fast RCNN只提供了一個小的好處,而YOLO提供了顯着的性能提升。

 

3PASCAL VOC 2012排行榜。YOLO與截至2015116日的完整comp4(允許外部數據)公開排行榜相比。顯示了各種檢測方法的平均精度和每類平均精度。 YOLO是唯一的實時檢測器。 快速RCNN + YOLO是第四高的評分方法,比fast RCNN增加2.3%。

4.4  VOC 2012結果

  VOC 2012測試集上,YOLO得分爲57.9mAP。這低於現有技術水平,更接近使用VGG-16的原始RCNN,參見表3.我們的系統與小目標相比,其最接近的競爭對手。在類別如瓶,羊和電視/顯示器YOLO得分比RCNN或特徵編輯低8-10%。 然而,在其他類別如貓和火車YOLO實現更高的性能。

  我們的fast RCNN + YOLO模型是最高性能的檢測方法之一。 快速RCNN從與YOLO的組合得到了2.3%的改進,提高了5個點在公衆排行榜上。

4.5、通用性:藝術品中的人檢測

  用於目標檢測的學術數據集從相同的分佈中抽取訓練和測試數據。在實際應用中,很難預測所有可能的用例,測試數據可能與系統在[3]之前所看到的不同。我們比較YOLOPicasso數據集[12]和人 - 藝術數據集[3]上的其他檢測系統,兩個數據集用於測試藝術品上的人物檢測。

  5顯示YOLO和其他檢測方法之間的比較性能。作爲參考,我們給VOC 2007檢測人上面的AP,其中所有模型僅訓練VOC 2007數據。畢加索模型在VOC 2012培訓,而人 - 藝術培訓VOC 2010

  RCNNVOC 2007上具有高AP。然而,當應用於藝術品時,RCNN顯着下降。 RCNN使用選擇性搜索來調整自然圖像的邊界框建議。RCNN中的分類器步驟僅僅看到小區域並且需要好的建議。

  DPM在應用於藝術品時保持其AP良好。先前的工作理論認爲DPM執行良好,因爲它具有強大的目標的形狀和佈局的空間模型。儘管DPM不會降低與RCNN一樣多,但是它從較低的AP開始。

  YOLOVOC 2007上具有良好的性能,並且當應用於藝術品時,其AP降解少於其他方法。相似的DPMYOLO模擬目標的大小和形狀,以及目標之間的關係以及目標通常出現的位置。圖像和自然圖像在像素級別上非常不同,但是它們在目標的大小和形狀方面是相似的,因此YOLO仍然可以預測良好的邊界框和檢測。

5.野外實時檢測

  YOLO是一個快速,精確的目標檢測器,使其成爲計算機視覺應用的理想選擇。 我們將YOLO連接到網絡攝像頭,並驗證其是否保持實時性能,包括從相機獲取圖像並顯示檢測結果的時間。

  結果系統是互動和參與。 雖然YOLO單獨處理圖像,但當連接到網絡攝像頭時,它的功能類似於跟蹤系統,檢測目標在移動時的外觀變化。 系統演示和源代碼可以在我們的項目網站上找到:http//pjreddie.com/yolo/

 

VOC 2007,畢加索和人物藝術數據集的定量結果。畢加索數據集評估AP和最佳F 1分數。

6.結論

  我們介紹YOLO,一個統一的目標檢測模型。 我們的模型很容易構建,可以直接在完整的圖像上進行訓練。 不同於基於分類器的方法,YOLO被訓練的損失函數直接對應於檢測性能,整個模型聯合訓練。

快速YOLO是文獻中最快的通用目標檢測器,YOLO推動了實時目標檢測中的最先進的技術。 YOLO也廣泛適用於新的領域,使其成爲依賴於快速,強大的目標檢測的應用程序的理想選擇。

致謝:這項工作部分支持ONR N00014-13-1-0720NSF IIS-1338054和艾倫傑出研究者獎。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章