YOLO-V2

1 introduction

通過已有的分類數據擴大當前檢測系統的範圍, 使用目標分類層的分層視圖, 將不同的數據集組合在一起.

 

聯合訓練算法: 分類與檢測相結合訓練 , 使用標記好的檢測數據實現目標的精確定位,利用分類數據提高其識別範圍及穩健性.

代碼:

http://pjreddie.com/yolo9000/

 

2 Better

Batch Normalization

在YOLO所有卷積層上添加批量標準化, 刪除dropout.

 

High Resolution Classifier

先使用448X448的ImageNet進行10epoch微調, 爲了更好地適應高分辨率輸入.

 

Convolutional With Anchor Boxes

移除FC層, 使用錨框預測邊界框.

1 移除一個池化層, 爲了獲得高分辨率特徵圖

2 輸入416X416, 爲了獲得奇數個位置, 只有一箇中心單元

Dimension Clusters(維度聚類)

在訓練集邊界框上運行k-means, 找到良好的先驗(即或者錨中那些框設置什麼樣最合理).

距離度量爲:

d(box, centroid) = 1 - IOU(box, centroid)

用不同k值進行k-means. 回執最接近質心的平均IOU. 最終選擇K=5.

 

Direct location prediction

Fine-Grained Features

通過疊加高分辨率特徵層, 有利於小的物體定位. 方法和ResNet類似

直通層將高分辨率特徵與低分辨率特徵連接起來,將相鄰特徵疊加到不同的通道中,而不是空間位置上,類似於ResNet中的恆等映射。將26×26×512的特徵圖變爲13×13×2048的特徵圖,然後就可以與原來的特徵連接。

Multi-Scale Training

每隔幾次迭代就改變一次網絡。每10個批次我們的網絡會隨機選擇一個新的圖像尺寸大小.

取值集合爲{320,352,…,608}

 

3 Faster

Darknet19

 

 

4 Stronger

混合來自檢測和分類數據集的圖像. 網絡看到標記爲檢測的圖像時,可以根據完整的YOLOv2損失函數進行反向傳播。 當它看到分類圖像時,只會反向傳播分類部分的損失

因爲網絡softmax預測的每個分支都是相互排斥的, 所以對於合併的數據集, 標籤問題的解決方式如下:

 

分層分類:

WordTree,一個視覺概念的分層模型, 例如terier節點

圖片是否是Norfolk terrier

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章