論文:Rich feature hierarchies for accurate object detection and semantic segmentation
(https://arxiv.org/abs/1311.2524v3)
算法結構:
R-CNN由三部分組成:產生region proposals,CNN提取region proposals的特徵向量,SVM分類和bounding box迴歸
1)region proposals
在selective search前將每個圖像resize成固定尺寸(寬500像素)
2) CNN特徵提取模型訓練:
模型:AlexNet,結構不變,輸出4096維特徵
初始參數:ILSVRC2012 預訓練參數‘
fine-tuning數據集:selective search在目標檢測數據PASCAL上產生的候選框與ground-truth的 IoU大於等於0.5爲正樣本,與ground-truth的IoU小於0.5或者背景爲負樣本,模型輸入候選框resize成227x227圖像
訓練策略:使用SGD優化,學習率0.001(是預訓練學習率的1/10),每個mini-batch的大小是128,由32個正樣本和96個負樣本組成(正負樣本偏差是由於正負樣本數量不平衡)
3) 目標分類SVM訓練
爲每個類別訓練1個線性svm二分類器。
數據:與ground-truth的IoU大於0.3爲正,小於0.3爲負 ,選擇{0,0.1,0.2,0.3,0.4,0.5}集合中的其他值作爲閾值時mAP會下降
訓練輸入:判爲正樣本的候選區提取的4096維特徵
4) bounding-box迴歸
訓練線性模型用於預測框,對每個search proposal使用特定類別svm打分後, 使用特定類別bounding-box迴歸進行bounding-box預測。
輸入:N個訓練對序列,,P是proposal框的中心座標和寬、高,4個值,G是ground-truth對應的值。