目標檢測筆記(1)——R-CNN

論文:Rich feature hierarchies for accurate object detection and semantic segmentation

             (https://arxiv.org/abs/1311.2524v3

    算法結構:

   

    R-CNN由三部分組成:產生region proposals,CNN提取region proposals的特徵向量,SVM分類和bounding box迴歸

        1)region proposals

              在selective search前將每個圖像resize成固定尺寸(寬500像素)

        2)  CNN特徵提取模型訓練:

              模型:AlexNet,結構不變,輸出4096維特徵

                               

            初始參數:ILSVRC2012 預訓練參數‘

            fine-tuning數據集:selective search在目標檢測數據PASCAL上產生的候選框與ground-truth的 IoU大於等於0.5爲正樣本,與ground-truth的IoU小於0.5或者背景爲負樣本,模型輸入候選框resize成227x227圖像

            訓練策略:使用SGD優化,學習率0.001(是預訓練學習率的1/10),每個mini-batch的大小是128,由32個正樣本和96個負樣本組成(正負樣本偏差是由於正負樣本數量不平衡)

  3)   目標分類SVM訓練

             爲每個類別訓練1個線性svm二分類器。 

             數據:與ground-truth的IoU大於0.3爲正,小於0.3爲負 ,選擇{0,0.1,0.2,0.3,0.4,0.5}集合中的其他值作爲閾值時mAP會下降 

             訓練輸入:判爲正樣本的候選區提取的4096維特徵    

 4) bounding-box迴歸       

             訓練線性模型用於預測框,對每個search proposal使用特定類別svm打分後, 使用特定類別bounding-box迴歸進行bounding-box預測。

             輸入:N個訓練對序列,,P是proposal框的中心座標和寬、高,4個值,G是ground-truth對應的值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章