AAAI2019 | 基於區域分解集成的目標檢測 論文解讀

Object Detection based on Region Decomposition and Assembly

AAAI2019 | 基於區域分解集成的目標檢測 論文解讀

作者 | 文永亮

學校 | 哈爾濱工業大學(深圳)

研究方向 | 目標檢測、GAN

推薦理由:

這是一篇發表於AAAI2019的paper,文章提出了一種R-DAD的方法來對RCNN系列的目標檢測方法進行改進。

研究動機:

目前主流的目標檢測算法分爲1 stage和2 stage的,而2 stage的目標檢測方法以Faster-RCNN爲代表是需要RPN(Region Proposals Network)生成RoI(Region of Interests感興趣區域)的,文章認爲正是因爲被遮擋了的或者不精確的Region Proposals導致目標檢測算法的不準確。作者的想法動機其實很簡單,就是假如一輛車的左邊被人遮擋了,那麼這輛車的右邊帶來的信息其實才是更可信的。基於這個想法,文章提出R-DAD(Region Decomposition and Assembly Detector),即區域分解組裝檢測器,來改善生成的Region Proposals。

R-DAD的網絡結構:

文章以Faster-RCNN的網絡結構爲例,修改成它提出的R-DAD結構:

 

R-DAD網絡架構主要分成兩個模塊MRP和RDA:

  1. MRP(Multi-Scale Region Proposal)模塊,用來改善RPN生成的Region Proposals的準確率。

 

圖一:MRP模塊,框內分別對應S=0.7,1,1.2的Region Proposals

MRP表面意思就是生成多尺度的Region Proposal,方法很簡單,就是使用傳統的RPN生成一些建議框,然後用不同的縮放因子(文章使用了5種縮放因子作爲一組s=[0.5,0.7,1,1.2,1.5])對生成出的建議框進行不同比例的縮小放大從而提高Region Proposals的多樣性。如圖一,生成了不同尺度的區域,有一些僅僅是局部有一些是大於目標本身的,但是這也帶來了一個問題,就是原來的Region Proposals已經可以說是極大的數量了,再乘以五倍,想要網絡能夠完全利用這些建議框是不切實際的,作者最後還添加了RoI的採樣層,對分數低的和跟ground truth重疊率低的進行了篩選。

由MRP網絡生成的各種Region Proposals可以進一步適應目標之間因爲空間變化所導致的特徵變化,提高結構的魯棒性。

  1. RDA(Region Decomposition and Assembly)模塊,作者也稱它爲mutil-region-based appearance model,即基於多區域的外觀模型,它可以同時描述一個物體的全局外觀和局部外觀,RDA分爲目標分解和目標區域集成的兩部分,目標分解如圖二所示,把一個目標分爲上下左右四個方向的分解部分

一般會先用線性插值兩倍上採樣之後再分解,後面作者給出了表格表示這樣效果更好。左右剛好是特徵圖的左右一半,上下也同理,都會送入RAB模塊,RAB模塊如圖三所示:

圖三:RAB模塊

其實就是下面這個函數:

其中p代表着上下左右的每一個部分或者組合後的部分如左-右(l/r)、下-上(b/u)和comb(l/r與b/u的組合),*是卷積操作,f()是ReLU單元。最後再取max,是爲了融合了和的信息,生成同樣大小的。最後就是代表着全局信息的scale爲1生成的Region Proposals,一起送進RAB模塊。這樣整個網絡結構就可以做到既捕捉到局部信息的同時,也不丟失全局信息。

RAB模塊是一個類似maxout的單元,理論上它可以逼近任何連續的函數,所以我們使用RAB而不是直接使用ReLU。這表明可以通過配置不同的分層地組合RAB模塊來表示各種各樣的目標特徵。

損失函數:

對每一個框(box)d,我們都會通過IoU篩選出跟GT(ground truth)最匹配的d*,如果d跟任何的d*的IoU超過0.5,給予正標籤,若在0.1到0.5之間的,給予負標籤。R-DAD的輸出層對每一個框d都有四個參數化座標和一個分類標籤。對於box regression來說,我們與以往目標檢測的參數化一致如下:

同理,是用來評估預測框和GT的差距的。

跟訓練RPN網絡相似,R-DAD也需要最小化分類損失和迴歸損失,如下:

 

實驗結果:

文章中做了各種設置的組合,關於MRP裏縮放因子的組合、是否有RDA模塊以及是否上採樣,得分如下表所示:

與Faster-RCNN對比,作者使用了VOC07trainval和VOC12trainval數據集訓練,再在VOC07test上測試,並且用了不同的特徵提取器(VGG、ZF、Res101),得分均比Faster-RCNN高。

在速度方面均比Faster-RCNN慢。

與沒有上下區域分解集成的R-DAD對比,有上下分解集成的誤判率低很多,因爲它在複雜情形下被遮擋物體會更有選擇地相信得到的信息。

R-DAD的優點:

1.文章提出因爲我們最大化目標在橫向空間位置上局部特徵的語義響應,與使用支持小區域的最大池化相比,在沒有深層次結構的情況下,我們可以改善特徵位置的空間不變性。我的理解就是作者取了上下左右四個方向的特徵模板,最後對四個方向進行了融合語義信息,利用了橫向空間上的空間不變性,揭示了不同方向上的語義關係。

2.在複雜場景下,如有目標對象被另一目標對象遮擋時,通過左右上下模板篩選出來的特徵是更符合真實場景的,這樣的Region Proposals也更加可信。

3.同時描述了全局特徵和局部特徵的語義信息,在RAB的組裝上具有很強的可操作性,通過配置分層式地組裝RAB模塊,以及修改特徵模板,特徵的表達會更加靈活。

 

點評:

這個區域分解集成的算法令我覺得跟以前傳統的人臉識別算法提取Haar-like特徵有點異曲同工之處,同樣都是把特徵圖分成上下兩部分,然後做特徵提取操作,都是定義了特定的特徵模板,這就很容易理解爲什麼作者要做multi scale的操作了,因爲在以前使用Haar/SIFT/HoG的時候,往往都需要使用muti scale來檢測。

但是R-DAD爲什麼對特徵只分成上下各一半,左右各一半這種特徵模板,文章並沒有給出令人信服的理由。儘管如此,這也是一個對目標檢測的改進方向,通過MRP和RDA模塊代替了之前的單純的RPN網絡,而且在不使用FPN(Feature Pyramid Networks)的情況下取得了不錯的mAP,這樣看來R-DAD是2 stage目標檢測系列的另一種技巧,綜合了橫向空間上的語義信息。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章