YOLO系列（一）—— You Only Look Once:Unified, Real-Time Object Detection

原創

2018-12-12 23:37

本系列分爲三篇，此文爲本系列第二篇，其他文章：
YOLO系列（一）—— You Only Look Once:Unified, Real-Time Object Detection
YOLO系列（二）—— YOLO9000:Better, Faster, Stronger

project: https://pjreddie.com/darknet/yolo/
paper: You Only Look Once:Unified, Real-Time Object Detection

個人認爲YOLO最大的特點是在目標檢測任務中實現了end-to-end的網絡結構，不需要複雜的pipeline，實現了速度上的提升。
大體的檢測過程如下圖所示：

將圖像分割成S×S的網格，每個網格負責檢測中心點落在該網格下的物體。

首先來看一下網絡的整體結構：

該網絡包括24個卷積層2個全連接層以及5個池化層。

解釋一下網絡輸出的7×7×30維的向量：7×7代表將輸入劃分爲7×7的小格，30包括voc數據集包含的20種物體種類，以及每個grid預測兩個bounding box，每個bounding box包含5維的寬高位置以及置信度信息，一共是30維。
由網絡結構我們可以得到一些信息：
1）由最後的全連接層可知，每一個grid的預測都可以用到輸入圖像的所有信息，而不是只可以用到grid附近的圖像
2）由於包含全連接層，輸入圖像的尺寸不可改變，必須是448×448

還有一個比較重要的部分就是損失函數的設計：

損失函數整體上是平方和誤差，但在此基礎上做了一些調整：
1）給不同的損失部分乘上不同的係數，其中 $\lambda_{coord}=5$ ， $\lambda_{noobj}=0.5$
2）寬和高開平方
開平方是由於，對於相同的誤差，其對小的box來說影響比大的box更大，開平方可以減小這種差別，但也不可以完全消除。

該模型的優點：
1）結構簡單，檢測速度快
2）每個box的檢測都可以看到全局的信息，使背景誤檢率低
3）通用性強，對於藝術類作品中的物體檢測同樣適用（不太確定是什麼原因造成的）

缺點：
1）由於包含全連接層，輸入大小必須固定爲448×448
2）在準確率上落後於state-of-the-art的模型，識別物體位置精準性差，召回率低，特別是對於小物體來說
造成上述缺點的原因：
1）每一個cell只可以預測一個物體，多個物體落在同一個cell時，只可以檢測到一個物體
2）小物體localization error貢獻的loss相對較少，雖然開平方有一定緩解效果
3）特徵經過了32倍的下采樣，特徵不夠精細，且沒有多尺度特徵
4）直接預測寬高，模型不夠穩定
5）個人認爲loss的各個係數還有調整的空間

對於上述缺點，YOLOv2中對其中的一些做了修改。
YOLO系列（二）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

YOLO系列（一）—— You Only Look Once:Unified, Real-Time Object Detection

Ubuntu細節記錄

You should consider upgrading via the 'pip install --upgrade pip' command.

檢測tensorflow是否使用gpu進行計算

Jupyter notebook中Python2和Python3共存

Error parsing PCC subspaces from PCCT

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結