YOLO系列(一)—— You Only Look Once:Unified, Real-Time Object Detection

本系列分爲三篇,此文爲本系列第二篇,其他文章:
YOLO系列(一)—— You Only Look Once:Unified, Real-Time Object Detection
YOLO系列(二)—— YOLO9000:Better, Faster, Stronger

project: https://pjreddie.com/darknet/yolo/
paper: You Only Look Once:Unified, Real-Time Object Detection

個人認爲YOLO最大的特點是在目標檢測任務中實現了end-to-end的網絡結構,不需要複雜的pipeline,實現了速度上的提升。
大體的檢測過程如下圖所示:
在這裏插入圖片描述

將圖像分割成S×S的網格,每個網格負責檢測中心點落在該網格下的物體。

首先來看一下網絡的整體結構:
在這裏插入圖片描述

該網絡包括24個卷積層2個全連接層以及5個池化層。

解釋一下網絡輸出的7×7×30維的向量:7×7代表將輸入劃分爲7×7的小格,30包括voc數據集包含的20種物體種類,以及每個grid預測兩個bounding box,每個bounding box包含5維的寬高位置以及置信度信息,一共是30維。
由網絡結構我們可以得到一些信息:
1)由最後的全連接層可知,每一個grid的預測都可以用到輸入圖像的所有信息,而不是只可以用到grid附近的圖像
2)由於包含全連接層,輸入圖像的尺寸不可改變,必須是448×448

還有一個比較重要的部分就是損失函數的設計:
在這裏插入圖片描述

損失函數整體上是平方和誤差,但在此基礎上做了一些調整:
1)給不同的損失部分乘上不同的係數,其中 λcoord=5\lambda_{coord}=5λnoobj=0.5\lambda_{noobj}=0.5
2)寬和高開平方
開平方是由於,對於相同的誤差,其對小的box來說影響比大的box更大,開平方可以減小這種差別,但也不可以完全消除。

該模型的優點:
1)結構簡單,檢測速度快
2)每個box的檢測都可以看到全局的信息,使背景誤檢率低
3)通用性強,對於藝術類作品中的物體檢測同樣適用(不太確定是什麼原因造成的)

缺點:
1)由於包含全連接層,輸入大小必須固定爲448×448
2)在準確率上落後於state-of-the-art的模型,識別物體位置精準性差,召回率低,特別是對於小物體來說
造成上述缺點的原因:
1)每一個cell只可以預測一個物體,多個物體落在同一個cell時,只可以檢測到一個物體
2)小物體localization error貢獻的loss相對較少,雖然開平方有一定緩解效果
3)特徵經過了32倍的下采樣,特徵不夠精細,且沒有多尺度特徵
4)直接預測寬高,模型不夠穩定
5)個人認爲loss的各個係數還有調整的空間

對於上述缺點,YOLOv2中對其中的一些做了修改。
YOLO系列(二)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章