Paper Reading: YOLO9000: Better，Faster，Stronger

原創

2019-04-05 17:58

論文地址：YOLOv2

論文概述

YOLOv2在YOLOv1的基礎上進行改進，使用一種全新的多尺度的訓練方法在變化的輸入尺寸上進行訓練，在運行速度和精度之間達到極好的平衡。在67FPS情況下，YOLOv2在VOC2007訓練集上達到76.8mAP。在40FPS，YOLOv2在VOC2007上達到78.6mAP。在保持實時性的效果下，超過當前的最先進技術:使用ResNet的Faster R-CNN和SSD。同時本文也提出一種在目標檢測和目標分類數據集上進行聯合訓練的分層樹結構，使用該方法實現在coco檢測數據集和ImageNet分類數據集上同時訓練YOLO9000。該聯合訓練策略允許YOLO9000在沒有標註的檢測數據的情況下預測檢測目標的類別。

改進之處

考慮到YOLOv1相關工作的誤差來源主要有以下兩點：

定位誤差
recall(召回率）太低

批歸一化

使用該方法在mAP上獲得2%的提升，同時有助於對模型進行正則化。使用批歸一化，可以移除模型dropout環節而不導致過擬合。

高分辨率分類器

該策略主要使用完全的 $448 \times 448$ 分辨率的輸入圖片訓練10輪神經網絡，然後用訓練得到的網絡來執行檢測任務，該策略提升4%的mAP。

使用anchor Boxes 進行卷積

借鑑Faster R-CNN的RPN網絡使用Anchor Boxes的策略，來爲每一個anchor box預測offset和置信度。由於預測層是卷積的，RPN網絡在feature map的每個位置預測對應的offsets而不是座標，這極大地簡化問題也使得網絡的學習更加簡單。

細節

移除YOLOv1的全卷積層，使用anchor box來預測邊界框。將輸入尺寸由448改爲416，使其滿足feature map只有唯一中心位置而不是有四個鄰近中心。對416尺寸輸入圖像使用32的因子進行下采樣能夠得到 $13 \times 13$ 的feature map的輸出。
對每個anchor box預測其對應類別和可能目標，這一點和YOLOv1基本相同。
使用anchor box可以改變YOLOv1在每幅圖片上只預測98個邊界框的缺陷，能夠達到每幅圖預測數超過一千。

維度聚類

在YOLO上使用anchor box的缺陷：邊界框的維數是手動設置的，好的設置能是網絡的訓練更加簡單，預測效果更好。

爲克服上述手動調節的缺陷，本文采用k-means 聚類來自行選擇最合適的anchor box 尺寸。考慮到使用歐氏距離計算預測精度大的邊界框比小的產生更多錯誤，YOLOv2使用IOU評價指標進行距離度量：

下面對三種聚類策略和純粹的anchor box計算各自的Avg IOU進行比較,結果如下：

直接座標預測

在使用anchor boxes和YOLO結合時，會遇到第二個問題：模型不穩定，特別是在早期的網絡迭代過程中。絕大多數不穩定因素都是由於預測box的座標 $(x,y)$ 。爲此本文對該方法進行改進，預測位置座標和grid cell的相關關係。這樣能夠對真值進行限界，使其落入0-1之間，同時使用邏輯迴歸激活函數來約束預測值落入這個區間。
網絡在輸出的feature map上對每個cell預測5個邊界框，同時在每個邊界框上預測5個座標參數 $t_x,t_y,t_w,t_h,t_o$ 。如果單元格偏離圖像的左上角 $(c_x,c_y)$ ，並且前面的邊界框具有寬度和高度 $p_w，p_h$ ，則預測對應於：

對位置預測進行約束，參數的學習會更加簡單，同時網絡也更加穩定。使用維數聚類和直接預測邊界框的中心位置在使用anchor boxes的基礎上，在YOLOv1的基礎上實現5%的提升。

細粒度的特徵

經過修改的YOLOv1在 $13\times13$ 的feature map 上預測檢測目標。Faster R-CNN和SSD都通過在不同的feature map上運行網絡來得到一系列不同的分辨率。本文采用一種不同的方法，只需添加一個passthrough圖層，它可以從26 x 26分辨率的早期圖層中獲取特徵。
passthrough層將更高分辨率的特徵和更低分辨率的特徵通過在不同通道堆疊鄰近特徵聯繫起來。這提升了1%的執行效果。