【目標檢測】RFBNet:Receptive Field Block Net for Accurate and Fast Object Detection(CVPR2017)

論文:《Receptive Field Block Net for Accurate and Fast Object Detection》

論文鏈接:https://arxiv.org/abs/1711.07767

參考原文:https://blog.csdn.net/u014380165/article/details/81556769

                  http://www.sohu.com/a/300330661_787107

代碼鏈接:https://github.com/ruinmessi/RFBNet

 

1、緒論部分:

當前頂級目標檢測器依賴於非常深的CNN主幹網絡,例如ResNet-101和Inception,優點是它們具有強大的特徵表現能力,但是耗時嚴重。相反地,一些基於輕量級模型的檢測器滿足實時處理,但是精度是詬病。

在RFBNet這篇論文中,主要想利用一些技巧使用輕量級模型達到速度和精度並舉的檢測器。靈感來自人類視覺的感受野結構Receptive Fields (RFs) ,提出了新奇的RF block(RFB)模塊,來驗證感受野尺寸和方向性的對提高有鑑別魯棒特徵的關係。RFBNet是以主幹網絡(backbone)爲VGG16的SSD來構建的。下面是討論其有效性,兩項基準測試實驗和結果顯示。RFBNet具備同非常深的主幹網絡檢測器的精度,但是保持了實時性。

2、RFB結構

RFB是一個類似Inception模塊的多分支卷積模塊,它的內部結構可分爲兩個組件:多分支卷積層以及隨後的膨脹卷積層,如下圖(Figure2)所示:

RFB結構主要有兩個特點

1、不同尺寸卷積核的卷積層構成的多分枝結構,這部分可以參考Inception結構。在Figure2的RFB結構中也用不同大小的圓形表示不同尺寸卷積核的卷積層。

2、引入了dilated卷積層,dilated卷積層之前應用在分割算法Deeplab中,主要作用也是增加感受野,和deformable卷積有異曲同工之處。

在Figure2的RFB結構中用不同rate表示dilated卷積層的參數。

在RFB結構中最後會將不同尺寸和rate的卷積層輸出進行concat,達到融合不同特徵的目的。在Figure2的RFB結構中用3種不同大小和顏色的輸出疊加來展示。在Figure2的最後一列中將融合後的特徵與人類視覺感受野做對比,從圖可以看出是非常接近的,這也是這篇文章的出發點,換句話說就是模擬人類視覺的感受野進行RFB結構的設計。

RFB結構示意圖如下所示:

è¿éåå¾çæè¿°

(a)是RFB,整體結構上借鑑了Inception的思想,主要不同點在於引入3個dilated卷積層(比如3*3conv, rate=1),這也是這篇文章增大感受野的主要方式之一。

(b)是RFB-s,RFB-s和RFB相比主要有兩個改進,一方面用3*3卷積層代替5*5卷積層,另一方面用1*3和3*1卷積層代替3*3卷積層,主要目的應該是爲了減少計算量,類似Inception後期版本對Inception結構的改進。

3、RFBNet檢測結構

Figure5是RFB-Net300的整體結構示意圖,基本上和SSD類似,和SSD不同的是:

1、主幹網上用兩個RFB結構替換原來新增的兩層。

2、conv4_3和conv7_fc在接預測層之前分別接RFB-s和RFB結構,這兩個結構的示意圖如前面Figure4所示。

è¿éåå¾çæè¿°

4、實驗結果

Table1是在PASCAL VOC2007 test-set數據集上的測試結果,訓練集基於2007和2012的trainval。RFB Net300在mAP和FPS方面效果都不錯。

è¿éåå¾çæè¿°

Table4是在COCO test-dev 2015數據集上的測試結果。最後一個RFB Net512-E主要做了2點改變:1、對conv7_fc的輸出特徵做了上up-sample,然後和conv4_3的輸出特徵做融合,基於融合後的特徵做預測。這種做法其實是借鑑了FPN算法的思想。2、在RFB結構中增加了7*7大小的卷積分支。這兩點改進對效果的提升有一定幫助,而且帶來的計算量也少。
 

è¿éåå¾çæè¿°

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章