YOLO v1總結

YOLO V1

1. idea

  • 此前的目標檢測將問題看成是分類問題,而yolo看成是一個迴歸問題
  • yolo非常快,可以達到一秒45幀的速度
  • yolo在運行時將整張照片作爲輸入,可以得到更多的context。而不像R-CNN那樣將Bounding Box作爲輸入
  • YOLO具有更強的泛化能力(得益於將圖片整體作爲輸入?)
  • yolo的運行步驟爲:1. resize圖片;2. 輸入網絡;3. 極大值抑制

2. details

  • 將object detection的各個部分整合到一個單獨的網絡
  • 將整張圖片劃分爲S×SS \times S個網格grid,每個網格預測出B個bounding box,每個box各預測出一個置信度confidence(用於描述這個box包含object的概率),confidence的定義爲
    Pr(object)IOUpredtruth Pr(object)*IOU_{pred}^{truth}
    假如沒有object落在box中,則confidence爲0
  • 每個box要預測五個值,其中一個便是confidence,另外四個是(x,y,w,h)(x,y,w,h)(x,y)(x,y)表示box的中心。(x,y)(x,y)是box相對於grid的的相對位置,歸一化到[0,1][0,1],而(w,h)(w,h)是相對於input(整張圖)的比例,一樣[0,1][0,1]
  • 每個grid還需要預測出C(C爲類別的總數)個概率值Pr(ClassiObject)Pr(Class_i|Object)
  • 在測試階段,可以根據以下公式得到類別指定的置信度class-specific confidence
    Pr(ClassiObject)Pr(Object)IOUpredtruth=Pr(Classi)IOUpredtruthPr(Class_i|Object)*Pr(Object)*IOU_{pred}^{truth}=Pr(Class_i)*IOU_{pred}^{truth}
  • 因此,整個網絡的輸出是一個S×S×(B5+C)S \times S \times (B * 5 + C)的tensor

3. Experiment

  • CNN採用類似GoogleNet的結構
    在這裏插入圖片描述
    沒有采用inception模塊,採用1×11 \times 1的卷積層降維加上一個3×33\times 3的卷積層代替
  • 網絡一共24層,fast yolo採用9層
  • 數據集採用Pascal VOC,S=7,B=2,C=20,因此輸出爲7×7× 307 \times 7 \times \ 30的向量。
  • 在ImageNet上進行預訓練卷積層(預訓練時長1周),在預訓練的卷積層(20層)後加入4層卷積層和2層全連接層。因爲目標識別需要更多的信息,將輸入大小從224224增大到448448。
  • loss採用sum-squared error。因爲大部分的box都不包含object,不加權的情況下會使網絡傾向於預測出confidence全0。同時,位置信息與分類錯誤權重一致的情況下實驗不太理想。因此,增大位置信息(coordinate)的權重並增大那些包含object的box的權重,論文中加入兩個參數λcoord=5,λnoobj=0.5\lambda_{coord}=5, \lambda_{noobj}=0.5。最終的loss function爲在這裏插入圖片描述
    其中
  1. C爲box的confidence,
  2. pi(c)p_i(c)爲第i個grid屬於第c類的概率;
  3. Iiobj\mathbb I_i^{obj}代表object是否出現在第i個grid上(構建ground truth的時候每個object只在一個grid上有置信度,即object中心所在的grid才具有置信度)
  4. Iijobj\mathbb I_{ij}^{obj}代表第i個grid中的第j個box是否responsible即與ground truth具有最高的IOU,即該grid中具有最大iou的box纔會responsible。
  5. Iijnoobj=1\mathbb I_{ij}^{noobj}=1是指4.中提到的box以外的box
  6. 值得注意的是,對於分類error的懲罰只作用於出現object的grid上
  7. 對於寬和高h w的開根,是因爲對於不同的大小box迴歸,預測偏差相等時對於小box的懲罰更大。如偏差同樣爲10,對於長爲100的box的懲罰顯然應該小於長爲20的box
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章