Fast R-CNN論文解讀

Fast R-CNN論文解讀

一、相關知識

首先要了解R-CNN和SPPnets存在的不足之處:
R-CNN:
1、多層結構,比較冗雜。
2、時間和空間開銷較大。
3、目標檢測過程太慢。
SPPnets:
1、和R-CNN一樣依然是多層結構較爲繁瑣。
2、微調算法不能更新卷積層,限制了深層神經網絡的準確性。

二、論文貢獻

提出了Fast R-CNN算法,彌補了R-CNN和SPPnets的不足之處,具有以下幾個優點:
1、相比於R-CNN、SPPnets具有更高的精度和速度。
2、訓練是一步到位,使用了一個多任務loss。
3、訓練可以更新所有神經網絡層。
4、對於特徵捕捉沒有硬盤存儲需求。

三、模型結構

在這裏插入圖片描述
1、RoI 池化層

RoI池化層使用最大池化來把圖片特徵轉化爲有效的RoI區域,使其成爲有一個特定空間範圍的特徵圖。每一個RoI由四個元素來定義(r,c,h,w),以此來確定左上角位置座標(r,c),以及它的高度和寬度(h,w)。

2、來自預訓練網絡的初始化

作者使用了三個預訓練好的ImageNet網絡,每一個網絡有5個池化層和13個卷積層。經歷了以下三個步驟:
第一、最後一層最大池化層被RoI池化層替換,通過設定H和W來讓其與第一層全連接層相適合。
第二、神經網絡的最後一層全連接層和softmax被兩個兄弟層替換。
第三、神經網絡被修正爲接收兩種數據輸入:一類是圖片,另一類是這些圖片中的RoIs區域。

3、檢測的微調

在Fast R-CNN中,作者提出了一種更有效率的取樣方式。首先取樣N張圖片然後從每張圖片中取出R/N個RoIs區域。對於來自相同圖片的RoIs共享計算和記憶。除了這個,作者還優化了softmax分類器和BB迴歸,而不是訓練一個softmax分類器SVMs和三個分開區域的迴歸。

以下分別對loss、mini-batch sampling strategy、通過RoI的反向傳播、SGD算法進行介紹:

Multi-task loss
p:每一個種類的概率。
t:BB迴歸偏置,有四個參數(x,y,w,h),確定迴歸框的位置和尺寸。
u:每一個訓練的RoI綁定的真實類別標籤。
v:每一個BB迴歸框目標的真實值。
λ:控制兩個loss的平衡。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
Mini-batch sampling
每一個mini-batch來源於兩張圖片,取mini-batch的大小等於128,這樣每張圖片就有64個RoIs樣本。對於提取出來的這些RoIs,取和真實值的迴歸框重疊超過0.5的作爲類別的基準,其餘的RoIs來自於和真實值有最大IoU的目標區域。這些是背景樣本,令u=0。

Back-propagation through RoI pooling layers
x(i)表示第i層RoI池化層的輸入,y表示輸出。
在這裏插入圖片描述
SGD hyper-parameters:
對於每一層來說,權重的學習率爲1,偏差的學習率爲2,整體的學習率爲0.001.當在VOC07和VOC12上訓練時,運行了SGD算法30000次mini-batch迭代。

四、實驗設計

此圖爲使用SVD算法前後全連接層的時間消耗圖
數據集上的比較結果:
實驗中使用了三個預訓練好的ImageNet模型,此處記作S/M/L,分別代表小、中、大。
以下爲與多個模型的比較結果:在這裏插入圖片描述
訓練和測試時間:
在這裏插入圖片描述
對於微調層的確定:
在這裏插入圖片描述
此處作者有兩個發現:
(1)相較於從conv3_1開始學習,從conv2_1開始讓訓練變慢。(12.5 vs 9.5)
(2)從conv1_1開始更新超出了GPU的記憶負荷。

五、設計評估

  • 多任務訓練是否有幫助?
    爲了解決這個問題,作者訓練了只含有L(cls)損失函數的基線網絡,並把這個基線分爲了S,M,L三個類別。
    在這裏插入圖片描述

  • 尺度不變性:暴力解決還是巧妙解決?
    以下是多尺度vs單尺度:
    在這裏插入圖片描述
    可以看出,單尺度和多尺度在精度上差別並不大,而且多尺度在計算時間上還有很大的開銷。

  • 是否需要更多的訓練數據?
    通過擴大數據集的容量,mAP從66.9%提高到了70.0%,mini-batch的迭代次數也從40k增加到了60k.

  • SVMs是否超過softmax?
    作者通過在模型中訓練 hard negative mining ,來看模型對VOV07數據集的識別效果:
    在這裏插入圖片描述

  • 提議越多效果越好嗎?
    在這裏插入圖片描述
    通過圖片看出,mAP先增然後又輕微的下降隨着proposal的不斷增加。圖中的Average Recall(AR)表示目標提議的質量,可以看出AR與mAP並沒有多大的聯繫。

發佈了5 篇原創文章 · 獲贊 2 · 訪問量 144
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章