譯文：

摘要我們提出YOLO，一種新的目標檢測算法。之前的目標檢測工作都是將其定爲分類任務後再進行檢測。與之相反，我們將目標檢測作爲解決迴歸問題，並求解目標的空間包圍框和相關類的概率。一個神經網絡模型在一次評估中直接從完整的圖像內預測目標的包圍框座標和類別概率。由於整個檢測過程是一個神經網絡模型，我們可以直接在其端到端的訓練中對整體檢測網絡進行優化並得到更好的結果。

我們的統一架構模型具有極快的速度。我們的基於YOLO的模型可以實時處理每秒45幀圖像。而其中的較小網絡的版本，Fast YOLO，每秒可以處理155幀圖像，同時仍然能夠達到其他實時檢測器的兩倍的mAP值。與最先進的檢測系統相比，YOLO會產生更多的定位誤差，但是該誤差並不是將背景預測爲目標而產生的錯誤。最後，YOLO學習了非同一般的目標特徵表達。當檢測任務從自然圖像推廣到其他領域，如藝術品，YOLO方要法優於其他檢測方法，包括DPM和R-CNN。

1 簡介

人們看一次圖像，就會立即知道圖像中的物體是什麼，它們在哪裏，以及它們是如何相互作用的。人類的視覺系統是快速和準確的，這就使我們能夠執行復雜的任務，如小心翼翼的駕駛汽車。快速而準確的目標檢測算法將允許計算機在沒有專用傳感器的情況下駕駛汽車，也使輔助設備能夠向人類用戶傳送實時場景信息，並解放通用響應型機器人系統的潛力。

對於當前的檢測系統需要重新定位分類器以完成檢測任務。爲了檢測一個目標，這些系統先爲該對象訓練一個分類器，之後對測試圖像中不同位置和尺度的目標進行評價。比如可變形部件模型（DPM）使用滑動窗口的方法，其中分類器在整個圖像中進行均勻間隔的位置滑動[10]。

最新的方法，像R-CNN算法，使用區域建議的方式首先在圖像中生成潛在的包圍框，然後在這些建議框上運行分類器。在完成分類之後，進行後處理來優化包圍框，消除重複的檢測框，並基於場景中其他目標計算包圍框的評價得分[13]。由於每個單獨的過程都必須分開訓練，所以造成該檢測過程是複雜緩慢並且難以優化的。

我們將目標檢測任務作爲一個單一的迴歸問題，直接依據圖像像素得出包圍框的座標和分類概率。使用我們的系統，你只看一次（YOLO）對一張圖像，就可以預測哪些目標存在，以及它們在哪個位置。

YOLO方法是十分清晰及簡潔的，如圖1所示。單個卷積神經網絡同時預測這些柵格的多個包圍框座標以及分類概率。YOLO對全圖像進行訓練，並直接優化檢測性能。這種統一的模型要比傳統的物體檢測方法有以下幾個優點。

圖1：YOLO檢測系統。YOLO處理圖像非常簡潔直接。針對我們的系統：（1）調整輸入尺寸爲448×448，（2）圖像在一個卷積神經網絡運行，（3）通過模型置信度設置閾值得出最終結果。

第一，YOLO檢測速度非常快。由於我們將檢測任務作爲一個迴歸問題，所以我們不需要複雜的過程。我們的方法只是在測試時對一幅新的圖像運行神經網絡來預測目標。我們的基礎版本網絡以每秒45幀的速度運行，並沒有在Titan X GPU上進行批處理運行，快速版本以每秒150幀的速度運行。這意味着我們可以用不到25毫秒的等待時間就能實時處理流視頻。此外，YOLO方法檢測精度達到了其他實時系統平均精度的兩倍以上。對於我們的系統在網絡攝像頭上進行實時運行的演示，請參閱我們的項目主頁：http://pjreddie.com/yolo/。

第二，YOLO在預測時對於全圖的信息都有影響。不同於滑動窗口方法和基於區域的建議方法，YOLO在訓練和測試期間看到整個圖像，因此它以隱式的方法編碼類別的上下文信息及目標的外觀信息。Fast R-CNN，一個頂級的檢測方法[14]，由於其對圖像不能看到較多的上下文信息，所以在圖像中錯誤的對背景進行調整。YOLO方法使得背景誤差的數量不到Fast R-CNN方法的一半。

第三，YOLO對於所學的目標具有高度的概括性表示。當對自然圖像進行訓練，並在藝術圖上進行檢測時，YOLO遠優於如DPM和R-CNN之類的頂級檢測方法。由於YOLO具有極高的泛化性能，當該方法應用於新的領域或意外輸入時，它不太可能崩潰。

YOLO在準確度上仍然落後於最先進的檢測系統。雖然它能快速的識別圖像中的物體，但它對於一些物體的精確定位仍然有偏差和難度，尤其是尺度較小的物體。在我們未來的實驗中仍會研究這些問題，並權衡速度與精度。

我們所有的訓練和測試代碼都是開源的，還可以下載多種預先訓練的模型。

2 統一的檢測

我們將目標檢測的分離過程統一在一個神經網絡中。我們的網絡使用整幅圖像的特徵來預測每個目標的包圍框，它還同時預測一幅圖像中所有包圍框的分類。這就意味着我們的網絡全面的理解整副圖像和圖像中所有目標。YOLO方法能實現端到端的訓練實時的檢測速度，同時保持較高的平均精度。

我們的系統將輸入圖像劃分成S×S個柵格。如果目標的中心落入某個柵格單元中，則該柵格單元負責檢測出該目標。

每個柵格單元需要預測B個包圍框和置信度得分。這些置信度得分反映了模型對於包圍框包含目標有多少信心，並且也被認爲是這些包圍框預測出目標有多少準確度。正式地表達，我們將置信度定義爲Pr⁡(Object)*IOUpredtruth。如果該柵格單元中不存在目標對象，則置信度得分應該爲零。否則，我們的置信度得分等於模型預測出的包圍框與真實目標框之間的重疊比率（IOU）。

每個包圍框由5個預測參數組成：x，y，w，h和置信度得分。其中，（x,y）表示包圍框相對於柵格單元邊界的中心座標。w和h代表對於整個預測包圍框的寬度和高度。最後，置信度得分表示預測的包圍框和任意目標真實框之間的IOU。

每個柵格需要預測C個類別的條件概率：Pr⁡(Classi|Object)。這些概率計算僅用在包含目標的柵格單元上。因此，我們只預測每一個柵格單元的一組類別概率，而不考慮包圍框的數量B。

圖2：模型。我們的系統模型將檢測作爲一個迴歸問題。它把圖像分爲S×S個柵格，每個柵格單元預測B個包圍框，及這些框的置信度得分和類別概率。這些預測被編碼爲S×S×（B*5+C）個張量。

在測試時，我們將類別條件概率與包含目標的包圍框預測出的置信度得分相乘：

PrClassiObject*PrObject*IOUpredtruth=PrClassi*IOUpredtruth (1)

式子（1）就給了我們對於每個框的針對類別的置信度得分。這些得分編碼出該類別在框中出現的概率，同時預測出框包含目標的位置信息。

爲了驗證YOLO在PASCAL VOC數據集上的表現，我們設定S=7，B=2。PASCAL VOC有20個類別標籤，所以C=20。我們最終預測出7×7×30個張量。

2. 1網絡設計

我們實現了本文模型設計爲卷積神經網絡，並在PASCAL VOC檢測數據集[9]上對模型進行評價。網絡的初始卷積層從圖像中提取特徵，而之後的全連接層網絡預測輸出的目標分類概率和包圍框座標。

我們的網絡架構設計靈感來自於圖像分類模型GoogLeNet[33]。我們的網絡由24個卷積層以及2個全連接層組成。並不像GoogLeNet模型使用inception結構，我們簡單地使用1×1降維層後連接3×3的卷積層，該結構類似於林等人的設計[22]。完整的網絡如圖3所示。

我們也訓練了一個快速版本的YOLO算法設計，用來推動快速目標邊緣檢測的研究。Fast YOLO使用較少卷積層的神經網絡（9層代替24層）和這些層中的卷積核。除了網絡的尺寸外，YOLO和Fast YOLO之間的所有訓練和測試參數都相同。

我們的網絡最終輸出是預測出7×7×30個張量。

2. 2訓練

我們使用1000類ImageNet競賽數據集[29]對卷積網絡進行了預訓練。針對預訓練階段，我們使用圖3中的前20層卷積層，再連接一個平均池化層和一個全連接層構成預訓練網絡。我們對該網絡進行了大約一週的訓練，並在ImageNet2012驗證集上進行模型評價，本模型的單類Top-5精度達到88%，該結果與Caffe模型庫中GoogLeNet網絡的精度相當。

然後，我們更換模型來執行檢測任務。任等人的實驗表明將卷積層和連接層放入經過預訓練的網絡中可以提高模型檢測性能[28]。根據他們所提供的示例，我們在預訓練網絡中添加了4個卷積層和2個全連接層，並對所添加網絡進行隨機初始化權重。由於檢測任務通常需要目標的細粒度視覺信息，因此我們增加了網絡的輸入分辨率，從224×224增加到448×448。

圖3：結構。我們的檢測網絡包含24個卷積層，和2個全連接層。交替的1×1卷積核進行跨通道融合信息。我們對ImageNet分類任務數據集進行半分辨率（222×224）的訓練預處理，然後再將檢測分辨率翻倍。

我們的最後一層全連接層預測目標分類概率和包圍框座標。我們通過圖像寬高的歸一化處理對包圍框的寬高進行規範，使得他們的變化區間在0和1之間。我們將包圍框的x和y座標參數化爲針對柵格單元位置的偏移量，因此它們的值域也在0和1之間。

我們在最後一層網絡使用了一個線性激活函數，網絡的其他層均使用以下的leaky ReLU激活函數：

∅x=x, if x >00.1x, otherwise (2)

我們對模型輸出的平方和誤差進行優化。爲什麼使用平方和誤差？它具有易於優化的特點。但是，它並不能滿足我們最大化平均精度的目標。原因是該函數的定位誤差與分類誤差佔比相等，這樣的結果可能並不理想。而且，在每幅圖像中，許多柵格單元並不包含目標對象，這些柵格的置信度得分也被推向零，通常會壓倒包含目標對象柵格單元中的梯度。這樣，很可能導致模型不穩定，也會造成早期訓練的發散。

爲了解決這個問題，我們增加了包圍框座標預測損失在總損失中的比重，並且減少了不含目標柵格置信度得分預測損失的佔比。我們使用了兩個參數，λcoord和λnoobj去實現這個設想。我們設置λcoord=5和λnoobj=.5。

平方和誤差也等權了在大框和小框中的誤差。我們的誤差度量應該反映出在小框中的偏差敏感度應該比在大框中的大。爲了部分解決這個問題，我們預測包圍框的寬度和高度的平方根，而不是直接預測寬度和高度。

YOLO對於每個柵格單元預測多個包圍框。在訓練階段，對於每個目標我們只需要一個包圍框預測器負責。我們指派一個預測器依據預測值與真實值之間最高的IOU值來“負責”預測出目標對象。這種方式形成了包圍框預測器之間的精確分工，使每個預測器在預測尺寸、縱橫比或目標類別等方面會有更好的效果，從而提高整體的目標召回率。

在訓練階段，我們優化了以下多個部分的損失函數：

其中，1iobj表示是否有目標中心落入柵格i中，1ijobj表示第i個柵格中的第j個包圍框的預測器“負責”預測該目標對象。

注意，如果在柵格單元中存在目標對象，則損失函數僅考慮分類誤差（因此，在前面討論了條件類別概率）。如果這個預測器“負責”預測目標真實的包圍框（和柵格單元中的任意預測器都有最高的IOU值），損失函數僅考慮預測座標的損失。

我們在PASCAL VOC2007和2012的訓練驗證數據集上對網絡訓練了135個epochs。當在VOC2012數據集進行測試時，我們也將VOC07測試集放入訓練集。在整個訓練過程裏，我們設定的批次參數爲64，衝量爲0.9，權值的衰減率爲0.0005。

我們的學習率調整時間表如下：在第一個epochs，我們慢慢將學習率從提高到。如果我們以較高的學習率開始訓練，模型由於不穩定的梯度導致訓練發散。我們繼續使用學習率訓練75個epochs，之後學習率降到訓練30個epochs，最後將學習降到再訓練30個epochs。

爲了避免訓練產生過擬合，我們使用dropout方法和常用的數據增強方法。在第一個連接層後設置dropout層，將rate設置爲0.5，減少層之間的聯合性[18]。對於數據增強，我們對約20%的原始圖像的尺寸進行隨機縮放和平移。我們還在HSV顏色空間上隨機以1.5倍因子調整圖像的曝光度和飽和度。

2. 3推論

就像在訓練階段，針對測試圖像的檢測只需要使用一個網絡完成評估。在PASCAL VOC數據集上，網絡對每幅圖像預測98個包圍框和每個框的類別概率。YOLO在測試時速度非常快，因爲它只需要單個網絡進行評估，並不像基於分類器的方法。

柵格的設計在包圍框預測中增加了空間多樣性。通常，一個目標落入某個柵格單元是十分清晰的，並且網絡只對每個目標預測一個包圍框。但是，一些較大的目標或者目標在多個柵格的邊界處，會由多個柵格很好的檢測定位出來。非極大值抑制可以用來解決這種重複檢測問題。雖然對於R-CNN和DPM算法它並不是關鍵的性能影響，但是非極大值抑制方法可以提高2-3%mAP值。

2. 4 YOLO的侷限性

YOLO對於包圍框的預測具有極強的空間約束，因爲每個柵格只能預測兩個框，並且只能包含一個類別。這種空間約束限制了模型預測網格附近的其他目標的數量。我們的模型在檢測圖像中出現成羣的小物體時（比如鳥羣），會出現物體之間的競爭。

由於我們的模型在數據中學會預測包圍框，所以很難將包圍框的預測推廣到新的、不同長寬比或不同結構的目標。我們的模型還使用相對粗糙的特徵來預測包圍框，這是由於我們的網絡結構對輸入圖像具有多個下采樣層。

最後，當訓練近似檢測性能的損失函數時，我們的損失函數處理小包圍框和大包圍框的誤差佔比是一樣的。一個大包圍框中出現一個小錯誤通常是可以接受的，但是對於一個小包圍中出現一個小錯誤對IOU的影響是巨大的。我們的主要誤差來源仍是目標定位錯誤。

3 對比其他檢測系統

目標檢測是計算機視覺領域中的一個核心問題。其檢測過程通常是從輸入圖像中提取一組魯棒的特徵開始（Haar[25], SIFT[23], HOG[4], 卷積特徵[6]）。然後，分類器[35,21,13,10]或定位器[1,31]用於識別特徵空間中的目標物體。這些分類器或定位器要麼以滑動窗口的方式在整幅圖像上運行，要麼在圖像區域[34,15,38]的一些子集上運行。我們使用幾個頂級的檢測框架與YOLO檢測系統進行對比，突出展示它們的相同點與不同點。

可變形部件模型。可變形部件模型（DPM）使用滑動窗口方法完成目標檢測任務[10]。DPM使用不相關聯的過程來提取靜態特徵、分類區域以及對得分較高的區域預測包圍框等。我們的系統用一個卷積神經網絡代替這些不同的過程。該網絡同時進行特徵提取、包圍框預測、非極大值抑制和上下文信息推理。替代靜態特徵提取後，我們的網絡經過在線訓練提取的特徵，在優化之後可以更好的用於檢測任務。我們的統一架構比DPM方法產生速度更快、精度更高的模型。

R-CNN。R-CNN及它的變體系統均使用區域建議方法而不是用滑動窗口在圖像中尋找目標對象。其具體過程爲：Selective Search方法[34]會生成潛在的包圍框，卷積網絡再進行特徵提取，SVM對包圍框進行評分，線性模型微調包圍框，非極大值抑制方法消除重複的包圍框。對於這個複雜的過程中的每一個部分都需要十分精確地調試，並且該系統產生結果的速度十分緩慢，在測試時每張圖像需要花費超過40秒[14]。

YOLO與R-CNN有一些相同之處。YOLO中的每一個柵格單元需要給出潛在的包圍框，並使用卷積神經網絡對這些包圍框進行評分。但是，我們的系統將空間約束放在柵格單元的建議上，這樣有助於減少對同一個目標對象的重複檢測。我們的系統提出了更少的包圍框，相比於Selective Search方法提出的約2000個包圍框，我們對每幅圖像僅提出98個建議包圍框。最後，我們的系統將這些單獨的部分整合成單一的、經過優化後的模型。

其他快速檢測器。Fast 和 Faster R-CNN方法放棄Selective Search方法，通過共享計算以及使用神經網絡提出區域建議方式提升R-CNN框架的速度[14][27]。雖然它們比R-CNN方法有更快的速度和更高的精度，但是仍然不符合實時性的要求。

許多研究工作集中在提升DPM檢測過程的速度[30][37][5]。他們加速HOG的計算，使用級聯的方式並將計算放在GPU上進行。但是，僅僅只有30Hz的DPM[30]真實的完成實時性運行。

YOLO本身設計的速度是極快的，它並沒有試圖去優化較大的傳統檢測過程中各個獨立的部分，而且完全脫離整個過程。

對於單類的檢測任務，如人和人臉，YOLO檢測器可以進行很好的優化，由於這些任務特徵的變化較少[36]。YOLO是一種通用的檢測器，它可以完成同時檢測多種物體。

Deep MultiBox。與R-CNN方法不同，Szegedy等人通過訓練卷積神經網絡預測興趣區域[8]代替Selective Search方法。MultiBox可以用單類預測替換置信度預測的方式執行單個目標的檢測。但是，MultiBox不能執行通用的目標檢測，因爲它只是實現了一個複雜檢測過程中的一部分，還需要進一步對圖像塊分類。YOLO和MultiBox方法都使用一個卷積網絡完成一幅圖像的包圍框預測，但是YOLO是一個完整的檢測系統。

OverFeat。Sermanel等人通過一個卷積神經網絡訓練出目標定位器，並通過定位器去執行目標檢測[31]。OverFeat更有效地執行滑動窗口檢測方法，但是它仍然是一個各部分不相關聯的系統。OverFeat對定位精度進行了優化，並沒有提升檢測精度。該方法與DPM類似，定位器都是在預測時只能看到局部的圖像信息。OverFeat無法解析整幅圖像信息，因此使用後處理來產生相干檢測顯得十分重要。

MultiGrasp。我們的工作設計類似於Redmon等人[26]在目標抓取檢測方面的工作。我們的柵格預測包圍框的方法來自於MultiGrasp系統完成抓取任務。但是，抓取檢測要比目標檢測任務簡單得多。MultiGrasp只需要從包含單一目標圖像中預測單個可抓取區域。它並不需要去估計物體尺寸、物體位置、物體邊界信息及物體的分類，只是尋找一個合適的可抓取區域。YOLO需要預測一幅圖像中多個目標的包圍框和類別概率。

4 實驗

首先，我們將YOLO與其他使用PASCAL VOC數據集的實時檢測系統進行效果對比。爲了更加清晰的理解YOLO與R-CNN系列算法之間的差異，我們對YOLO與Fast R-CNN（R-CNN[14]系列算法性能最高的版本之一）在VOC2007數據集上所產生的誤差結果進行分析。基於實驗結果中不同的誤差分佈，我們證明YOLO可以重新調整Fast R-CNN檢測，並減少背景誤檢的錯誤率，從而顯著地提高整體檢測性能。我們也給出了在VOC2012上的檢測實驗結果，並與現今頂尖的目標檢測算法比較檢測性能。最後，我們證明，在兩個藝術品數據集上，YOLO比其他的檢測器有更好的效果，即YOLO能更好的推廣到新的領域。

4. 1 對比其他實時系統

許多的目標檢測研究主要集中在如何加快標準的檢測過程[5][37][30][14][17][27]。但是，只有Sadeghi等人真正的實現了一個實時運行的檢測系統（每秒30幀或更好）[30]。我們將YOLO與他們在GPU上實現DPM的方法進行對比，其中運行頻率爲30Hz和100Hz。雖然其他的檢測方法並沒有達到實時性的要求，我們依然比較YOLO與他們的相關mAP值與速度值，以檢查在目標檢測系統中可用精度與速度性能的折中。

Fast YOLO 是在PASCAL數據集中最快的目標檢測方法；據我們所知，它是現存的速度最快的目標檢測器。它的mAP值爲52.7%。這已經超過先前實時檢測系統精度的兩倍以上。YOLO將mAP值提升到63.7%時，仍然能夠保持實時的性能。

我們也使用VGG16模型訓練YOLO算法。這個模型的精度更高，當然檢測速度也明顯的比YOLO慢。這個模型與其他基於VGG16的檢測系統相比仍然是一個有效的改進，但是由於它達不到檢測實時性的要求，所以本文的其他內容都集中在我們更快的檢測模型。

Fastest DPM方法在不丟失大量mAP值的情況下，有效地加速了DPM算法，但是它仍然比實時性要求的速度低了兩倍[37]。同時，相比於神經網絡算法，DPM方法的檢測精度相對較低。

若R-CNN去除R，用靜態包圍框建議替代Selective Search方法[20]。雖然這種改變使得檢測速度比R-CNN快很多，但是它仍缺乏實時性，並且由於沒有好的建議區域使得其準確度有較大降低。

表1：在PASCAL VOC2007數據集上的實時檢測系統。對比快速檢測器的性能和速度。Fast YOLO是用於PASCAL VOC2007數據集上的最快的檢測器，並且它的精度是任何實時檢測器的兩倍。YOLO的mAP值比它快速版本高10個百分點，同時仍保持很好的實時性速度。

Fast R-CNN對R-CNN的分類階段進行了提速，但是它仍然依賴於Selective Search方法，每幅圖大約需要2秒的時間來生成包圍框建議。因此，它具有較高的mAP值，但是檢測速度僅爲0.5FPS，這也遠遠沒有達到實時性要求。

最近的Faster R-CNN方法使用神經網絡取代Selective Search方法提出包圍框建議，類似於Szegedy等人的研究[8]。在我們的測試實驗中，他們的最精確模型的檢測速度可以達到7FPS，而較小的、準確度較低的模型檢測速度可以達到18FPS。Faster R-CNN的VGG16版本在mAP值上比YOLO高了10個百分點，但是速度上慢了6倍。Zeiler-Fergus修改版Faster-CNN在檢測速度上比YOLO慢了2.5倍，但是精度比YOLO低很多。

4. 2 VOC2007數據集誤差分析

爲了進一步研究分析YOLO與最先進的檢測器之間的差距，我們查看了VOC2007數據集上的詳細檢測結果。我們將YOLO與Fast R-CNN進行對比，因爲Fast R-CNN是PASCAL數據集上性能最好的檢測器之一，並且它的檢測結果是公開的。

我們使用Hoiem等人[19]的方法和工具。對於每個類的測試階段，我們查看分類器預測的Top-N結果。每個預測結果是正確的，或者是根據錯誤的類別進行分類：

正確：正確的類別和IOU>0.5

定位：正確的類別和0.1<IOU<0.5

近似：類別是相似的和IOU>0.1

其他：錯誤的類別和IOU>0.1

背景：任意一個目標的IOU<0.1

圖4表示在數據集20個類別中每個錯誤類型的佔比。

圖4；誤差分析：Fast R-CNN vs. YOLO。圖標顯示在N個不同類別檢測中，定位誤差和背景誤差的百分比。（N=#表示目標在哪個類別中）

YOLO試圖正確的定位每個目標物體。但其定位誤差所佔比重比YOLO其他類型誤差之和還要多。Fast R-CNN定位誤差比YOLO小很多，但是其背景誤差比YOLO大很多。其檢測結果中有13.6%呈現假陽性（包圍框中未包含目標物體卻誤報爲目標）。Fast R-CNN對目標的誤檢率是YOLO的3倍。

4. 3 Fast R-CNN和YOLO結合

YOLO比Fast R-CNN在背景誤檢率上更低。通過使用YOLO消除Fast R-CNN的背景誤檢，我們的檢測器可以得到顯著的性能提升。對於R-CNN預測的每個包圍框，我們檢查YOLO是否也預測了一個類似的包圍框。如果的確如此，我們會根據YOLO的預測概率與兩個框之間的重疊率來提高該預測的得分。

最佳的Fast R-CNN模型在VOC2007數據集上實現了71.8%的mAP值。當在結合YOLO後，mAP值增加了3.2%達到75.0%。我也試圖結合最好的Fast R-CNN和幾個其他版本的Fast R-CNN。這些結合的模型的測試mAP值均有0.3%到0.6%的不同提高，具體見表2。

表2：在VOC2007數據集上的模型結合實驗。我們對各種模型進行結合得到最佳的Fast R-CNN版本，其他版本的Fast R-CNN結合模型僅能提供較小的提升，而YOLO則提供了顯著的性能提升。

結合YOLO所帶來的性能提升並不是模型集成的結果，因爲集成不同版本的Fast R-CNN對性能並沒有什麼實質性的提升。更確切地說，正是因爲YOLO在測試階段出現各種各樣的錯誤，所以它在提高Fast R-CNN的性能方面十分有效。

不幸的是，這種結合並沒有得到YOLO的速度優勢，因爲我們分開運行每一個模型，然後再組合結果。但是，由於YOLO的速度十分快，所以它不增加Fast R-CNN的計算時間成本。

4. 4 VOC2012結果

在VOC2012測試集上，YOLO的mAP值爲57.9%。這要低於比現有算法的準確度，更接近使用VGG16模型的原R-CNN算法，具體見表3。我們的系統在檢測小尺寸目標時存在相鄰目標之間競爭的問題。在瓶子、羊、電視/監視器等類別上，YOLO的分類得分比R-CNN和Feature Edit低了8-10%。但是，在某些類別上，如毛和火車，YOLO有很高的性能表現。

我們的組合Fast R-CNN+YOLO模型是性能最高的目標檢測方法。Fast R-CNN與YOLO結合後可以有2.3%的性能提升，使其在公開的排行榜上提高了5位。

表3：PASCAL VOC2012數據集結果排行榜。YOLO與2015年11月6日的comp4（允許使用外部數據）公開排行榜進行對比。對各種檢測方法，展示出它們的平均位置精度和平均分類精度。YOLO是唯一實時檢測器。Fast R-CNN+YOLO是得分第四高的檢測方法，對Fast R-CNN方法有2.3%的精度提升。

4. 5 抽象性：藝術品中的人體檢測

用於目標檢測的學術數據集是從同一分佈中提取的訓練和測試集。在實際應用中，很難預測所有可能

出現例子，並且測試數據可能與系統之前所看到的數據不同[3]。我們在Picasso數據集和People-Art數據集上將YOLO與其他使用該數據集的檢測系統進行對比。這兩個數據集均是用於測試藝術品上的人物檢測。

圖5顯示YOLO與其他檢測方法的性能對比。爲了提供參考，我們給出了所有模型在VOC2007訓練集上的人物類檢測的AP值。Picasso模型在VOC2012數據集上進行訓練，而在People-Art在VOC2010數據集上訓練。

R-CNN在VOC2007數據集上有較高的AP值。然而，當其應用在藝術品上時，R-CNN算法的AP值會有大幅的下降。R-CNN使用Selective Search方法對自然圖像進行選擇包圍框，而R-CNN分類器只能看到較小的區域，所以其需要更好的包圍框建議。

DPM應用在藝術品檢測時可以保持比較好的AP值。之前的研究理論認爲，DPM之所以有較好的表現，是因爲它具有極好的目標形狀和佈局空間表徵模型。雖然DPM不會像R-CNN出現退化的問題，但是它的起始AP值較低。

YOLO在VOC2007數據集上有良好的性能表現，在應用在藝術品時，它的AP下降率也低於其他方法。跟DPM相似，YOLO建立目標的尺寸和形狀模型，以及目標之間的關聯和目標經常出現的位置。藝術品和自然圖像在像素級上有極大不同，但是它們在目標的尺寸和形狀方面有相似點，因此YOLO仍然可以預測較好的包圍框完成檢測。

5 現實環境實時檢測

YOLO是一個快速、精確的目標檢測器，這也讓它成爲計算機視覺應用的理想選擇。我們將YOLO與網絡攝像頭連接，並驗證它實時性的表現，包括從攝像頭獲取圖像以及檢測顯示的時間。

最終的系統是交互式和參與式。在YOLO獨立處理圖像時，當連接到網絡攝像機時，它與跟蹤系統一樣工作，即在物體移動和外形變化時檢測它們。系統和源碼的演示可以在我們的項目網站中找到：http://pjreddie.com/yolo/。

6 總結

我們提出YOLO，一個統一的目標檢測模型。我們的模型構建簡潔，可以直接用全圖訓練。與其他基於分類器的方法不同，YOLO被訓練在一個直接對應檢測性能的損失函數上，並且整個模型使用聯合訓練方式。

Fast YOLO在本文中是一個快速的通用目標檢測器，它推動了實時檢測目標的最新發展。YOLO也可以很好的泛化到新的領域，使得它成爲依賴快速、魯棒的目標檢測器應用的理想選擇。

（a）Picasso數據集P-R曲線（b）VOC2007數據集、Picasso和People-Art數據集的定量結果，Picasso數據集評估包括AP和F1得分。:

圖5：Picasso和People-Art數據集的泛化結果。

圖6：定性結果。YOLO使用來自於互聯網的藝術品和自然圖像樣例進行檢測的結果示例。雖然它將一個人認成一架飛機，但是大部分檢測結果是準確的。

參考文獻

M. B. Blaschko and C. H. Lampert. Learning to localize objects with structured output regression. In Computer Vision–ECCV 2008, pages 2–15. Springer, 2008.
L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In International Conference on Computer Vision (ICCV), 2009.
H. Cai, Q. Wu, T. Corradi, and P. Hall. The crossdepiction problem: Computer vision algorithms for recognizing objects in artwork and in photographs. arXiv preprintarXiv:1505.00110, 2015.
N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005.IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005.
T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013.
J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprintarXiv:1310.1531, 2013.
J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified object detection and semantic segmentation. In Computer Vision–ECCV 2014, pages 299–314. Springer, 2014.
D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014.
M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015.
P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010.
S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model. CoRR, abs/1505.01749, 2015.
S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014Workshops, pages 101–116. Springer, 2014.
R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 580–587. IEEE,2014.
R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015.
S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information processing systems, pages 655–663, 2009.
B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In Computer Vision ECCV 2014, pages 297–312. Springer, 2014.
K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv preprint arXiv:1406.4729, 2014.
G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprintarXiv:1207.0580, 2012.
D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In Computer Vision–ECCV 2012, pages 340–353. Springer, 2012.
K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprintarXiv:1506.06981, 2015.
R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1,pages I–900. IEEE, 2002.
M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.
D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999.
D. Mishkin. Models accuracy on imagenet 2012 val. https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val. Accessed:2015-10-2.
C. P. Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE,1998.
J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks. CoRR, abs/1412.3128, 2014.
S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.
S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015.
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein,A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015.
M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. In Computer Vision–ECCV 2014, pages 65–79.Springer, 2014.
P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013.
Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection. arXiv preprint arXiv:1409.6911,2014.
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842,2014.
J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International journal of computer vision, 104(2):154–171, 2013.
P. Viola and M. Jones. Robust real-time object detection. International Journal of Computer Vision, 4:34–47, 2001.
P. Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154,2004.
J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014.

38. C. L. Zitnick and P. Doll´ar. Edge boxes: Locating object proposals from edges. In Computer Vision–ECCV 2014, pages 391–405. Springer, 2014.

有一些公式格式問題，稍後再修改

1 簡介

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

譯文：Fast RCNN

譯文：FishNet

譯文：

Faster-RCNN-TF測試及問題

YOLOv2訓練日記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結