摘要

我們推出了一個新的目標檢測方法—YOLO。先前有關目標檢測的工作將分類器用於執行檢測。取而代之的是，我們將目標檢測框架化爲空間分隔的邊界框和相關類概率的迴歸問題。單個神經網絡可以在一次評估中直接從完整圖像中預測邊界框和類概率。由於整個檢測pipeline是單個網絡，因此可以直接在檢測性能上進行端到端優化。

我們的統一體系結構非常快。我們的基礎YOLO模型以每秒45幀的速度實時處理圖像。較小的網絡Fast YOLO每秒可處理驚人的155幀，同時仍實現其他實時檢測器的mAP兩倍的效果。與最新的檢測系統相比，YOLO會產生更多的定位錯誤，但預測背景假陽性的可能性較小。最後，YOLO學習了非常普通的目標表示形式。從自然圖像推廣到藝術品等其他領域時，它的性能優於其他檢測方法，包括DPM和R-CNN。

1. 引言

人們看了一眼圖像，立即知道圖像中有什麼物體，它們在哪裏以及它們如何相互作用。人類的視覺系統快速準確，使我們能夠執行一些複雜的任務，例如在沒有意識的情況下駕駛。快速，準確的物體檢測算法將允許計算機在沒有專用傳感器的情況下駕駛汽車，使輔助設備向人類用戶傳達實時場景信息，並釋放通用響應型機器人系統的潛力。

當前的檢測系統重新利用分類器來執行檢測。爲了檢測物體，這些系統採用了該物體的分類器，並在測試圖像的各個位置和比例上對其進行了評估。像可變形零件模型（DPM）之類的系統使用滑動窗口方法，其中分類器在整個圖像上均勻分佈的位置上運行[10]。

R-CNN等最新方法使用區域提議方法，首先在圖像中生成潛在的邊界框，然後在這些提議的框上運行分類器。分類後，使用後處理來完善邊界框，消除重複檢測並根據場景中的其他目標對這些框進行重新評分[13]。這些複雜的pipeline運行緩慢且難以優化，因爲每個單獨的組件都必須分別進行訓練。

我們將目標檢測重新構造爲一個迴歸問題，直接從圖像像素到邊界框座標和類概率。使用我們的系統，您只需看一次（YOLO）圖像即可預測存在的物體及其位置。

YOLO非常簡單：請參見圖1。單個卷積網絡可同時預測多個邊界框和這些框的類概率。YOLO訓練完整圖像並直接優化檢測性能。與傳統的目標檢測方法相比，此統一模型具有多個優點。

首先，YOLO非常快。由於我們將檢測框架化爲迴歸問題，因此不需要複雜的流程。
我們只需在測試時在新圖像上運行神經網絡即可預測檢測結果。我們的基本網絡以每秒45幀的速度運行，在Titan X GPU上沒有批處理，而快速版本的運行速度超過150 fps。這意味着我們可以以不到25毫秒的延遲實時處理流視頻。此外，YOLO達到了其他實時系統平均精度的兩倍以上。有關在網絡攝像頭上實時運行的系統的演示，請參閱我們的項目網頁：http://pjreddie.com/yolo/.

其次，YOLO在2016年5月9日1 arXiv：1506.02640v5 [cs.CV]進行預測時會對圖像進行全局預測。與基於滑動窗口和區域提議的技術不同，YOLO在訓練和測試期間會看到整個圖像，因此它隱式地編碼有關類及其外觀的上下文信息。Faster R-CNN是一種頂部檢測方法[14]，它會將圖像中的背景色塊誤認爲是目標，因爲它看不到更大的上下文。與Fast R-CNN相比，YOLO產生的背景錯誤少於一半。

第三，YOLO學習目標的可概括表示。在自然圖像上進行訓練並在藝術品上進行測試時，YOLO在很大程度上優於DPM和R-CNN等頂級檢測方法。由於YOLO具有高度通用性，因此在應用於新域或意外輸入時，分解的可能性較小。

YOLO在準確性方面仍落後於最新的檢測系統。儘管它可以快速識別圖像中的物體，但仍難以精確定位某些目標，尤其是小的目標。我們在實驗中進一步研究了這些折衷。

我們所有的訓練和測試代碼都是開源的。各種預訓練的模型也可以下載。

2.統一檢測

我們將目標檢測的各個組成部分統一爲一個神經網絡。我們的網絡使用整個圖像中的特徵來預測每個邊界框。它還可以同時預測圖像所有類的所有邊界框。這意味着我們的網絡會全局考慮整個圖像和圖像中的所有目標。YOLO設計可實現端到端的訓練和實時速度，同時保持較高的平均精度。

我們的系統將輸入圖像劃分爲S×S網格。如果物體的中心落入網格單元，則該網格單元負責檢測該物體。每個網格單元預測B邊界框和這些框的置信度得分。這些置信度得分反映了該模型對box包含一個物體的信心，以及它認爲box預測的準確性。形式上，我們將置信度定義爲Pr（Object）* IOU（truth ，pred）。如果該單元格中沒有物體，則置信度分數應爲零。否則，我們希望置信度分數等於預測框與真實框之間的交併比（IOU）。

每個邊界框由5個預測組成：x，y，w，h和置信度。（x，y）座標表示框相對於網格單元邊界的中心。 w和h是相對於整個圖像預測的寬度和高度。最後，置信度預測表示預測框與任何真實框之間的IOU。

每個網格單元還預測C個條件類概率Pr（Classi|Object）。這些概率以包含目標的網格單元爲條件。無論框B的數量如何，我們僅預測每個網格單元的一組類概率。

在測試時，我們將條件類概率與各個框的置信度預測相乘，，這爲我們提供了每個框的特定類的置信度得分。這些分數既編碼了該類別出現在box中的概率，也代表了預測box符合這個物體的程度。

爲了評估PASCAL VOC上的YOLO，我們使用S = 7，B =2。PASCAL VOC有20個標記的類，因此C = 20。我們的最終預測是7×7×30的張量。

2.1 網絡設計

我們將該模型實現爲卷積神經網絡，並在PASCAL VOC檢測數據集上對其進行評估[9]。網絡的初始卷積層從圖像中提取特徵，而全連接層則預測輸出概率和座標。

我們的網絡體系結構受到用於圖像分類的GoogLeNet模型的啓發[34]。我們的網絡有24個卷積層，其後是2個全連接層。與Lin等[22]相似，我們沒有使用GoogLeNet的初始模塊，而是簡單地使用1×1 還原層（reduction layers）和3×3卷積層。完整的網絡如圖3所示。

我們還訓練了一種快速版本的YOLO，旨在突破快速目標檢測的界限。Fast YOLO使用的神經網絡具有較少的卷積層（9個而不是24個），並且這些層中的過濾器較少。除了網絡的規模外，YOLO和Fast YOLO之間的所有訓練和測試參數都相同。

我們的網絡的最終輸出是預測的7×7×30的張量。

2.2 訓練

我們在ImageNet 1000類競賽數據集上預訓練卷積層[30]。對於預訓練，我們使用圖3中的前20個卷積層，然後是平均池化層和全連接層。我們對該網絡進行了大約一週的訓練，並在ImageNet 2012驗證集上實現了88%的single crop top-5準確率，與Caffe’s Model Zoo [24].的GoogLeNet模型相當。我們使用Darknet框架進行所有訓練和推理[26]。

然後我們將模型轉換爲執行檢測。Ren等人表明將卷積層和連接層添加到預訓練網絡可以提高性能[29]。以它們爲例，我們添加了四個卷積層和兩個具有隨機初始化權重的全連接層。檢測通常需要細粒度的視覺信息，因此我們將網絡的輸入分辨率從224 × 224提高到448 × 448。

最後一層預測類概率和邊界框座標。我們通過圖像的寬度和高度來規範化邊界框的寬度和高度，使它們介於0和1之間。我們將邊界框的x和y座標參數化爲特定網格單元位置的偏移，因此它們也被限定在0和1之間。

我們對最終層使用線性激活函數，所有其他層使用以下有漏隙的校正線性激活函數（leaky rectified linear activation）：

我們對模型輸出的平方和誤差進行了優化。我們使用平方和誤差，因爲它很容易優化，但它並不完全符合我們最大化平均精度的目標。它將定位誤差與分類誤差平均加權，分類誤差可能不理想。此外，在每個圖像中，許多網格單元不包含任何物體。這會將這些單元格的“置信度”分數推向零，通常會壓倒（overpowering）包含目標的單元格的梯度。這可能會導致模型不穩定，導致訓練提前發散。

爲了彌補這一點，我們增加了邊界框座標預測的損失，並減少了不包含目標的框的置信預測的損失。我們使用兩個參數，λ_coord和λ_noobj來實現這一點。我們將λ_coord設爲5，λ_noobj設爲.5。

平方和誤差在大boxes和小boxes中的權重相等。我們的誤差度量應該反映出大boxes裏的小偏差比小boxes裏的小偏差更重要。爲了部分解決這個問題，我們預測邊界框寬度和高度的平方根，而不是直接預測寬度和高度。

YOLO在每個網格單元有多個預測邊界框。在訓練時，我們只希望一個邊界框預測器負責每個目標。我們指定一個預測器負責預測一個目標，這個目標是基於預測框和真實值有最高的IOU。這將導致邊界框預測器之間的特殊化。每個預測器在預測特定大小、寬高比或物體類別方面都會做得更好，從而提高整體recall能力。

在訓練期間，我們優化了以下多部分損失函數：

其中，表示目標是否出現在單元格i中，表示單元格i中的第j個邊界框預測器對該預測負責。

注意，如果網格單元中存在物體，則loss函數只懲罰分類錯誤（前面討論的條件類概率）。如果預測器是負責的真實框（即，在這個網格單元中任何和真實值有最高的IOU的預測框），它也只懲罰邊界框座標錯誤。

我們在PASCAL VOC 2007和2012的訓練和驗證數據集上對網絡進行了大約135個epochs的訓練。在2012數據集測試時，我們還包括了用於訓練的VOC 2007測試數據。在整個訓練過程中，我們使用64個批次，動量爲0.9，衰減爲0.0005。

我們的學習率變化如下：在第一個階段，我們將學習率從10^-3 緩慢提高到10^ -2。
如果我們從一個高學習率開始，我們的模型經常因爲不穩定的梯度而發散。我們開始以10^-2 訓練75個epoch，接着10^-3 訓練30個epoch，最後10^-4 訓練30個epoch。

爲了避免過擬合，我們使用了droupout和大量的數據增強。在第一個連接層之後添加了rate爲0.5的droupout以防止層之間的協同適應（co-adaptation）[18]。對於數據增強，我們引入了最大高於原始圖像大小20%的隨機縮放和平移。在factor爲1.5的HSV顏色空間中，我們還隨機調整圖像的曝光度和飽和度。

2.3 推理

就像在訓練中一樣，預測測試圖像的檢測只需要一個網絡評估。在PASCAL VOC上，網絡預測每個圖像有98個邊界框，每個box有類概率。與基於分類器的方法不同，YOLO在測試時速度非常快，因爲它只需要一個網絡評估。

網格設計在邊界框預測中增強了空間多樣性。通常很清楚目標屬於哪個網格單元，並且網絡只爲每個目標預測一個框。但是，一些大型目標或靠近多個單元格邊界的目標可以被多個單元格很好地定位。非最大值抑制可以用來修正這些多重檢測。對於R-CNN或DPM來說，非最大值抑制對性能並不重要，雖然mAP增加了2-3%。

2.4 YOLO的不足

YOLO對邊界框預測施加了很強的空間約束，因爲每個網格單元只能預測兩個框，並且只能有一個類。這個空間約束限制了我們的模型可以預測的鄰近目標的數量。我們的模型對於成羣出現的小物體很掙扎，例如成羣的鳥。

由於我們的模型學習從數據中預測邊界框，所以它很難推廣到新的或不尋常的寬高比或配置的物體。我們的模型還使用相對粗糙的特徵來預測邊界框，因爲我們的架構有來自輸入圖像的多個下采樣層。

最後，當我們訓練一個接近檢測性能的損失函數時，我們的損失函數對待小邊界框和大邊界框中的錯誤是一樣的。大box裏的小錯誤通常是良性的，但小box裏的小錯誤對IOU的影響要大得多。我們的主要錯誤來源是定位的錯誤。

3. 與其他檢測系統的比較

目標檢測是計算機視覺的核心問題。檢測pipeline通常首先從輸入圖像中提取一組魯棒特徵（Haar[25]、SIFT[23]、HOG[4]、卷積特徵[6]）。然後，使用分類器[36、21、13、10]或定位器[1、32]來識別特徵空間中的物體。這些分類器或定位器要麼以滑動窗口的方式在整個圖像上運行，要麼在圖像中的某些區域子集上運行[35、15、39]。
我們將YOLO檢測系統與幾個頂級的檢測框架進行了比較，突出了關鍵的相似性和差異性。

**DPM。**可變形零件模型（DPM）使用滑動窗口方法進行目標檢測[10]。DPM使用一個不相交的pipeline來提取靜態特徵、分類區域、預測高分區域的邊界框等，我們的系統用一個卷積神經網絡來代替所有這些不同的部分。該網絡同時執行特徵提取、邊界盒預測、非最大值抑制和上下文推理。網絡不是靜態特徵，而是在線訓練特徵，並針對檢測任務對其進行優化。與DPM模型相比，我們的統一架構帶來了更快、更精確的模型。

**R-CNN。**R-CNN及其變體使用區域建議而不是滑動窗口來查找圖像中的目標。選擇性搜索[35]生成潛在的邊界框，卷積網絡提取特徵，支持向量機對box打分，線性模型調整邊界框，非最大值抑制消除重複檢測。這個複雜pipeline的每個階段都必須獨立進行精確的調整，結果系統非常慢，在測試時每張圖像需要40秒以上。

YOLO和R-CNN有一些相似之處。每個網格單元提出潛在的邊界框，並使用卷積特徵對這些邊界盒進行評分。然而，我們的系統在網格單元建議上設置空間約束，這有助於減少對同一目標的多次檢測。我們的系統也提出了更少的邊界框，每張圖只有98個，而選擇性搜索有將近2000個。最後，我們的系統將這些單獨的組件組合成一個單獨的、聯合優化的模型。

**其他快速檢測器。**Fast和Faster R-CNN關注於通過共享計算和使用神經網絡提出區域而不是選擇性搜索來加速R-CNN框架[14] [28]。雖然它們比R-CNN提供了速度和準確性的改進，但都還不能達到實時性能。

許多研究工作集中在加速DPM pipeline[31] [38] [5]。它們加速HOG計算，使用級聯，並將計算推送到gpu。然而，只有30hz DPM[31]能夠實時運行。

YOLO沒有試圖優化大型檢測pipeline的單個組件，而是完全拋棄pipeline，並且設計得很快。

像人臉或人這樣的單個類的檢測器可以高度優化，因爲它們必須處理更少的變化[37]。YOLO是一種通用的探測器，它可以學習同時檢測各種物體。

**Deep MultiBox。**與R-CNN不同，Szegedy等人，訓練卷積神經網絡來預測感興趣的區域[8]，而不是使用選擇性搜索。MultiBox還可以通過將置信度預測替換爲單類預測來執行單目標檢測。然而，MultiBox不能進行一般的目標檢測，仍然只是一個較大的檢測pipeline中的一部分，需要進一步的補充圖像分類。YOLO和MultiBox都使用卷積網絡來預測圖像中的邊界框，但YOLO是一個完整的檢測系統。

**OverFeat。**Sermanet等人，訓練卷積神經網絡來執行定位，並使該定位器調整執行檢測[32]。OverFeat有效地執行滑動窗口檢測，但它仍然是一個不相交的（disjoint）系統。OverFeat優化了定位，而不是檢測性能。像DPM一樣，定位程序在進行預測時只看到局部信息。OverFeat不能解釋全局上下文，因此需要大量的後處理來產生一致的檢測。

**MultiGrasp。**我們的工作在設計上與Redmon等人的抓取檢測工作類似[27]。我們的邊界框預測的網格方法是基於多抓取系統的迴歸抓取。然而，抓取檢測比目標檢測簡單得多。對於包含一個目標的圖像，多重抓取只需要預測一個可抓取區域。它不需要估計物體的大小、位置或邊界，也不需要預測其類別，只需要找到一個適合抓取的區域。YOLO預測圖像中多個類的多個目標的邊界框和類概率。

4. 實驗

首先我們比較了YOLO和其他實時檢測系統在PASCAL VOC 2007上的性能。爲了瞭解YOLO和R-CNN變體之間的差異，我們探討了YOLO和Fast R-CNN在VOC 2007上的錯誤，後者是R-CNN性能最高的版本之一[14]。基於不同的誤差分佈，我們證明YOLO可以用來重新打分（rescore）Fast R-CNN的檢測，減少背景誤報帶來的誤差，從而顯著提高性能。我們還展示了VOC 2012的結果，並將mAP與當前最先進的方法進行了比較。最後，我們證明YOLO在兩個圖形數據集上比其他檢測器更好地推廣到新域。

4.1 與其他實時系統的對比

目標檢測的許多研究工作都集中在快速建立標準檢測pipeline上。[5] [38] [31] [14] [17] [28]然而，只有Sadeghi等人。實際產生了一個實時運行的檢測系統（每秒30幀或更好）[31]。我們將YOLO與他們的DPM的GPU實現進行了比較，DPM的運行頻率可以是30Hz，也可以是100Hz。雖然其他的efforts沒有達到實時里程碑，我們也比較了他們的相對mAP和速度，以檢查目標檢測系統的準確性與性能折衷的可能性。

Fast YOLO是PASCAL上最快的目標檢測方法；據我們所知，它是現存最快的目標檢測方法。在52.7%的mAP下，實時檢測的準確率是以往工作的兩倍以上。YOLO將mAP推到63.4%，同時仍然保持實時性能。

我們還使用VGG-16訓練YOLO。該模型比YOLO模型更精確，但速度明顯慢。它有助於與依賴VGG-16的其他檢測系統進行比較，但由於它比實時性慢，本文的其餘部分將重點放在我們更快的模型上。

最快的DPM有效地加快了DPM的速度，而不會犧牲太多的mAP，但它仍然沒有factor爲2時的實時性能[38]。與神經網絡方法相比，DPM的檢測精度相對較低。

R-CNN用靜態邊界框建議代替選擇性搜索[20]。雖然它比R-CNN快的多，但是它仍然缺乏實時性，並且由於沒有好的proposal而受到了很大的準確性打擊。

Fast R-CNN加速了R-CNN的分類階段，但它仍然依賴於選擇性搜索，每幅圖像大約需要2秒來生成邊界框proposal。因此，它有很高的mAP，但速度是0.5fps，所以它仍然和實時差的很遠。

最近Faster R-CNN用一個神經網絡代替了選擇性搜索來提出邊界框，類似於Szegedy等人。[8] 在我們的測試中，他們最精確的模型達到了每秒7幀，而較小的，不太精確的模型達到了每秒18幀。VGG-16版本的Faster R-CNN比YOLO高10 mAP，但也比YOLO慢6倍。ZeilerFergus的R-CNN速度比YOLO慢2.5倍，而且也不太準確。

4.2 VOC2007 誤差分析

爲了進一步研究YOLO和最先進探測器之間的差異，我們查看了VOC 2007的詳細結果分類。我們將YOLO與Fast R CNN進行比較，因爲Fast R-CNN是PASCAL上性能最高的檢測器之一，而且它的檢測是公開的。

我們使用了Hoiem等人的方法和工具。[19] 對於測試時的每個類別，我們查看該類別的前N個預測。每個預測要麼正確，要麼根據錯誤類型進行分類：

圖4顯示了所有20個類中平均每個錯誤類型的細分。

YOLO比較難正確地定位目標。定位錯誤比所有其他來源加起來都要多。Fast R-CNN定位誤差小得多，但背景誤差大得多。誤差最多的13.6%的檢測是不包含任何目標的誤報。Fast R-CNN比YOLO更容易預測背景檢測。

4.3 對比YOLO和Fast R-CNN

YOLO的背景錯誤比Fast R-CNN少得多。通過使用YOLO消除Fast R-CNN的背景檢測，我們在性能上得到了顯著的提高。對於R-CNN預測的每個邊界框，我們檢查YOLO是否預測了類似的框。如果是的話，我們會根據YOLO預測的概率和兩個框之間的重疊來提高預測。

最佳的Fast R-CNN模型在VOC 2007測試集上實現了71.8%的mAP。當與YOLO結合時，mAP增加3.2%至75.0%。我們還嘗試將最佳的Fast R-CNN模型與其他幾個版本的Fast R-CNN相結合。這些組合使mAP獲得了小幅度的在0.3%到0.6%之間的增長，詳情見表2。

來自YOLO的提升不僅僅是模型集成的副產品，因爲結合不同版本的Fast R-CNN幾乎沒有什麼好處。相反，正是因爲YOLO在測試時犯了各種各樣的錯誤，所以它對提高Fast R-CNN的性能非常有效。

不幸的是，這種組合並沒有受益於YOLO的速度，因爲我們分別運行每個模型，然後將結果組合起來。然而，由於YOLO是如此之快，相比Fast R-CNN，它沒有增加任何顯著的計算時間。

4.4 VOC 2012 的結果

在VOC 2012測試集中，YOLO的mAP分數爲57.9%。這比目前的技術水平低，更接近使用VGG-16的原始R-CNN，見表3。

與最接近的競爭對手相比，我們的系統在處理小物體方面存在困難。在奶瓶、綿羊和電視/監視器等類別中，YOLO的得分比R-CNN或Feature Edit低8-10%。但是，在其他類別上，如cat和train， YOLO可以獲得更高的性能。

我們的組合Fast R-CNN+YOLO模型是性能最好的檢測方法之一。Fast R-CNN與YOLO的結合提高了2.3%，在公共排行榜上提升了5個位置。

4.5 泛化性能：藝術品中的人的檢測

用於目標檢測的學術數據集從相同的分佈中提取訓練和測試數據。在實際應用中，很難預測所有可能的用例，測試數據可能與系統之前看到的不同[3]。我們將YOLO與畢加索數據集[12]和People Art數據集[3]上的其他檢測系統進行了比較，這兩個數據集用於測試藝術品上的人的檢測。

圖5顯示了YOLO和其他檢測方法的比較性能。作爲參考，我們給出了VOC 2007的人身檢測AP，所有的模型都是在voc2007數據上訓練的。畢加索的模型接受的是VOC 2012的訓練，而在人物藝術方面，他們接受的是VOC 2010的訓練。

R-CNN在VOC 2007上有很高的AP。然而，R-CNN在應用於藝術作品時精度會大幅度下降。R-CNN使用選擇性搜索的邊界框建議，這是調整爲自然圖像。R-CNN中的分類步驟只看到小區域，需要好的proposal。

DPM在應用於藝術品時能很好地保持它的AP。先前的工作理論認爲，DPM表現良好，因爲它有強大的空間模型的形狀和目標的佈局。儘管DPM沒有R-CNN下降那麼多，但它從一個較低的AP開始。

YOLO在VOC 2007上有很好的性能，其AP在應用於藝術品時的下降的低於其他方法。與DPM一樣，YOLO對目標的大小和形狀、目標之間的關係以及目標通常出現的位置進行建模。藝術品和自然圖像在像素級別上有很大的不同，但它們在物體的大小和形狀上是相似的，因此YOLO仍然可以預測良好的邊界框和檢測。

5. 世界上的實時檢測

YOLO是一種快速、準確的目標檢測器，非常適合計算機視覺應用。我們將YOLO連接到網絡攝像頭並驗證它是否保持實時性能，包括從攝像機獲取圖像和顯示檢測結果的時間。

由此產生的系統是互動的和引人入勝的。當YOLO單獨處理圖像時，當連接到網絡攝像頭時，它的功能就像一個跟蹤系統，在目標移動和外觀變化時檢測它們。系統演示和源代碼可以在我們的項目網站上找到：http://pjreddie.com/yolo/。

6. 總結

本文介紹了一種統一的目標檢測模型YOLO。我們的模型構造簡單，可以直接在全圖像上訓練。與基於分類器的方法不同，YOLO是基於與檢測性能直接對應的損失函數來訓練的，整個模型是聯合訓練的。Fast YOLO是目前文獻中速度最快的通用目標檢測器，它推動了實時目標檢測技術的發展。YOLO還可以很好地推廣到新的領域，使其成爲依賴於快速、魯棒的目標檢測的應用程序的理想選擇。

參考文獻

[1] M. B. Blaschko and C. H. Lampert. Learning to localize objects
with structured output regression. In Computer Vision–
ECCV 2008, pages 2–15. Springer, 2008. 4
[2] L. Bourdev and J. Malik. Poselets: Body part detectors
trained using 3d human pose annotations. In International
Conference on Computer Vision (ICCV), 2009. 8
[3] H. Cai, Q. Wu, T. Corradi, and P. Hall. The crossdepiction
problem: Computer vision algorithms for recognising
objects in artwork and in photographs. arXiv preprint
arXiv:1505.00110, 2015. 7
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for
human detection. In Computer Vision and Pattern Recognition,
2005. CVPR 2005. IEEE Computer Society Conference
on, volume 1, pages 886–893. IEEE, 2005. 4, 8
[5] T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan,
J. Yagnik, et al. Fast, accurate detection of
100,000 object classes on a single machine. In Computer
Vision and Pattern Recognition (CVPR), 2013 IEEE Conference
on, pages 1814–1821. IEEE, 2013. 5
[6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,
E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation
feature for generic visual recognition. arXiv preprint
arXiv:1310.1531, 2013. 4
[7] J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified
object detection and semantic segmentation. In Computer
Vision–ECCV 2014, pages 299–314. Springer, 2014. 7
[8] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable
object detection using deep neural networks. In Computer
Vision and Pattern Recognition (CVPR), 2014 IEEE Conference
on, pages 2155–2162. IEEE, 2014. 5, 6
[9] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I.
Williams, J. Winn, and A. Zisserman. The pascal visual object
classes challenge: A retrospective. International Journal
of Computer Vision, 111(1):98–136, Jan. 2015. 2
[10] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan.
Object detection with discriminatively trained part
based models. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 32(9):1627–1645, 2010. 1, 4
[11] S. Gidaris and N. Komodakis. Object detection via a multiregion
& semantic segmentation-aware CNN model. CoRR,
abs/1505.01749, 2015. 7
[12] S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people
in cubist art. In Computer Vision-ECCV 2014Workshops,
pages 101–116. Springer, 2014. 7
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature
hierarchies for accurate object detection and semantic
segmentation. In Computer Vision and Pattern Recognition
(CVPR), 2014 IEEE Conference on, pages 580–587. IEEE,
2014. 1, 4, 7
[14] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015.
2, 5, 6, 7
[15] S. Gould, T. Gao, and D. Koller. Region-based segmentation
and object detection. In Advances in neural information
processing systems, pages 655–663, 2009. 4
[16] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Simultaneous
detection and segmentation. In Computer Vision–
ECCV 2014, pages 297–312. Springer, 2014. 7
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling
in deep convolutional networks for visual recognition. arXiv
preprint arXiv:1406.4729, 2014. 5
[18] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and
R. R. Salakhutdinov. Improving neural networks by preventing
co-adaptation of feature detectors. arXiv preprint
arXiv:1207.0580, 2012. 4
[19] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error
in object detectors. In Computer Vision–ECCV 2012, pages
340–353. Springer, 2012. 6
[20] K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprint
arXiv:1506.06981, 2015. 5, 6
[21] R. Lienhart and J. Maydt. An extended set of haar-like features
for rapid object detection. In Image Processing. 2002.
Proceedings. 2002 International Conference on, volume 1,
pages I–900. IEEE, 2002. 4
[22] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR,
abs/1312.4400, 2013. 2
[23] D. G. Lowe. Object recognition from local scale-invariant
features. In Computer vision, 1999. The proceedings of the
seventh IEEE international conference on, volume 2, pages
1150–1157. Ieee, 1999. 4
[24] D. Mishkin. Models accuracy on imagenet 2012
val. https://github.com/BVLC/caffe/wiki/
Models-accuracy-on-ImageNet-2012-val. Accessed:
2015-10-2. 3
[25] C. P. Papageorgiou, M. Oren, and T. Poggio. A general
framework for object detection. In Computer vision, 1998.
sixth international conference on, pages 555–562. IEEE,
1998. 4
[26] J. Redmon. Darknet: Open source neural networks in c.
http://pjreddie.com/darknet/, 2013–2016. 3
[27] J. Redmon and A. Angelova. Real-time grasp detection using
convolutional neural networks. CoRR, abs/1412.3128, 2014.
5
[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards
real-time object detection with region proposal networks.
arXiv preprint arXiv:1506.01497, 2015. 5, 6, 7
[29] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object
detection networks on convolutional feature maps. CoRR,
abs/1504.06066, 2015. 3, 7
[30] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh,
S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein,
A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual
Recognition Challenge. International Journal of Computer
Vision (IJCV), 2015. 3
[31] M. A. Sadeghi and D. Forsyth. 30hz object detection with
dpm v5. In Computer Vision–ECCV 2014, pages 65–79.
Springer, 2014. 5, 6
[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus,
and Y. LeCun. Overfeat: Integrated recognition, localization
and detection using convolutional networks. CoRR,
abs/1312.6229, 2013. 4, 5
[33] Z. Shen and X. Xue. Do more dropouts in pool5 feature maps
for better object detection. arXiv preprint arXiv:1409.6911,
2014. 7
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed,
D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.
Going deeper with convolutions. CoRR, abs/1409.4842,
2014. 2
[35] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W.
Smeulders. Selective search for object recognition. International
journal of computer vision, 104(2):154–171, 2013.
4
[36] P. Viola and M. Jones. Robust real-time object detection.
International Journal of Computer Vision, 4:34–47, 2001. 4
[37] P. Viola and M. J. Jones. Robust real-time face detection.
International journal of computer vision, 57(2):137–154,
2004. 5
[38] J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable
part model for object detection. In Computer Vision and Pattern
Recognition (CVPR), 2014 IEEE Conference on, pages
2497–2504. IEEE, 2014. 5, 6
[39] C. L. Zitnick and P. Doll´ar. Edge boxes: Locating object proposals
from edges. In Computer Vision–ECCV 2014, pages
391–405. Springer, 2014. 4

論文翻譯之YOLO

摘要

1. 引言

2.統一檢測

2.1 網絡設計

2.2 訓練

2.3 推理

2.4 YOLO的不足

3. 與其他檢測系統的比較

4. 實驗

4.1 與其他實時系統的對比

4.2 VOC2007 誤差分析

4.3 對比YOLO和Fast R-CNN

4.4 VOC 2012 的結果

4.5 泛化性能：藝術品中的人的檢測

5. 世界上的實時檢測

6. 總結

參考文獻

論文筆記之C3D（Learning Spatiotemporal Features with 3D Convolutional Networks）

論文筆記之Pose-aware Multi-level Feature Network for Human Object Interaction Detection

吳恩達神經網絡和深度學習課程自學筆記（九）之卷積神經網絡

Pytorch入門第一課——基礎介紹

Tips——SOTA是什麼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結