1 introduction
通過已有的分類數據擴大當前檢測系統的範圍, 使用目標分類層的分層視圖, 將不同的數據集組合在一起.
聯合訓練算法: 分類與檢測相結合訓練 , 使用標記好的檢測數據實現目標的精確定位,利用分類數據提高其識別範圍及穩健性.
代碼:
2 Better
Batch Normalization
在YOLO所有卷積層上添加批量標準化, 刪除dropout.
High Resolution Classifier
先使用448X448的ImageNet進行10epoch微調, 爲了更好地適應高分辨率輸入.
Convolutional With Anchor Boxes
移除FC層, 使用錨框預測邊界框.
1 移除一個池化層, 爲了獲得高分辨率特徵圖
2 輸入416X416, 爲了獲得奇數個位置, 只有一箇中心單元
Dimension Clusters(維度聚類)
在訓練集邊界框上運行k-means, 找到良好的先驗(即或者錨中那些框設置什麼樣最合理).
距離度量爲:
d(box, centroid) = 1 - IOU(box, centroid)
用不同k值進行k-means. 回執最接近質心的平均IOU. 最終選擇K=5.
Direct location prediction
Fine-Grained Features
通過疊加高分辨率特徵層, 有利於小的物體定位. 方法和ResNet類似
直通層將高分辨率特徵與低分辨率特徵連接起來,將相鄰特徵疊加到不同的通道中,而不是空間位置上,類似於ResNet中的恆等映射。將26×26×512的特徵圖變爲13×13×2048的特徵圖,然後就可以與原來的特徵連接。
Multi-Scale Training
每隔幾次迭代就改變一次網絡。每10個批次我們的網絡會隨機選擇一個新的圖像尺寸大小.
取值集合爲{320,352,…,608}
3 Faster
Darknet19
4 Stronger
混合來自檢測和分類數據集的圖像. 網絡看到標記爲檢測的圖像時,可以根據完整的YOLOv2損失函數進行反向傳播。 當它看到分類圖像時,只會反向傳播分類部分的損失
因爲網絡softmax預測的每個分支都是相互排斥的, 所以對於合併的數據集, 標籤問題的解決方式如下:
分層分類:
WordTree,一個視覺概念的分層模型, 例如terier節點
圖片是否是Norfolk terrier