【目標檢測】Fast R-CNN學習筆記

背景

  • R-CNN的缺點,最主要就是速度慢,問題出現的主要原因就是每個推薦區域都進行了前向運算
  • R-CNN無論是訓練還是在測試時,都要從每個測試圖像中的每個推薦區域提取特徵,是很浪費時間的
  • SPPNet的出現,提出感興趣區域池化(ROI Pooling),使得網絡的輸入圖像可以是任意尺寸的,輸出則不變,同樣是一個固定維數的向量。相關鏈接
  • SPPNet計算整個輸入圖像的卷積特徵圖,然後使用從共享特徵圖提取的特徵向量來對每個候選框進行分類。通過最大池化將候選框內的特徵圖轉化爲固定大小的輸出來提取針對候選框的特徵。
  • R-CNN和SPPNet的不同點在於,R-CNN要對每個區域計算卷積,而SPPNet只需要計算一次,因此SPPNet的效率比R-CNN高得多;R-CNN和SPPNet的相同點在於,它們都遵循着提取候選框、提取特徵、分類幾個步驟。在提取特徵後,它們都使用了SVM進行分類。

貢獻

  • 比R-CNN和SPPnet具有更高的目標檢測精度(mAP)
  • 訓練是使用多任務損失的單階段訓練。
  • 訓練可以更新所有網絡層參數。
  • 不需要磁盤空間緩存特徵。

框架

在這裏插入圖片描述
Fast R-CNN架構。輸入圖像和多個感興趣區域(RoI)被輸入到全卷積網絡中。每個RoI被池化到固定大小的特徵圖中,然後通過全連接層(FC)映射到特徵向量。網絡對於每個RoI具有兩個輸出向量:Softmax概率和每類檢測框迴歸偏移量。該架構是使用多任務損失端到端訓練的。

  • Fast R-CNN相比SPPNet更進一步,不再使用SVM作爲分類器,而是使用神經網絡進行分類,這樣就可以同時訓練特徵提取網絡和分類網絡,從而取得比SPPNet更高的準確度
  • 分類器與多任務損失,Fast R-CNN直接使用全連接層,全連接層有兩個輸出,一個輸出負責分類,另一個輸出負責框迴歸。

筆記總結

  • Fast R-CNN不再使用SVM進行分類,而是使用一個網絡同時完成了提取特徵、判斷類別、框迴歸三項多任務工作
  • Fast R-CNN是R-CNN和SPPNet的融合與改進
  • 在R-CNN上改進,主要在於使用了SPPNet的思想,ROI Pooling
  • 在SPPNet上改進,主要在於最後分類使用的是神經網絡

參考:
https://blog.csdn.net/coffee_cream/article/details/51236082
https://blog.csdn.net/m0_37407756/article/details/80810364
https://blog.csdn.net/liuxiaoheng1992/article/details/81775007

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章