論文筆記 G-CNN: an Iterative Grid Based Object Detector

爲了目標檢測精度和速度的進一步提高,在CVPR2016上各種算法可謂各顯神通。今天要說的G-CNN就和YOLO算法類似,着重於速度的提升進行檢測算子的改進。而與YOLO不同的是,改算法着眼於初始化proposal數量的減少,使得數以萬計的proposal變成極少的初始格網,通過後面不停迭代獲得最終較爲準確的bbox。

其簡要流程示意圖:

proposal技術一直是高效的目標檢測算子的一個計算量的瓶頸,巨大的proposal數量使得後續檢測效率降低,因此,本文受迭代優化啓發,介紹了一種起始於網格的迭代算法,通過更新來使得網格box包含目標並且爲目標分類。一步的迴歸無法處理網格向目標靠近的非線性問題,因此,本文采用分段迴歸模型多次迭代。
這裏寫圖片描述

通過示意圖可以看出,在訓練階段,首先在圖像中獲取疊加的多尺度的規則網格(實際網格相互疊加,示意圖中顯示平鋪以視覺化),然後通過ground truth與每一個網格的IoU進行每一個網格ground truth的分配,並完成訓練過程,使得網格在迴歸過程中漸漸接近ground truth。在檢測階段,對於每一個box針對每一類獲得置信分數,用最可能類別的迴歸器來更新box的位置。

網絡結構:

這裏寫圖片描述
從網絡結構可以看出,G-CNN主要定義檢測問題:所有可能bbox的迭代搜索問題。因此,其目標是訓練網絡使得網格最後可以將初始的網格向着目標ground truth移動。這和Faster R-CNN有較大區別。

損失函數:

G-CNN是一個迭代方法,它將bounding box在儘可能少的步驟下朝着目標位置移動。所以,其loss函數包含:(1)每個訓練樣本訓練時的loss,(2)每個迭代時間步iterative step的loss。
在每一步迭代中,bounding box將要移動的目標定義函數如下:

這裏寫圖片描述

其中:Strain 第幾次迭代 這裏寫圖片描述
這裏寫圖片描述

其整體loss函數如下:
這裏寫圖片描述
這裏Bi 代表第i步迭代時候的bounding box位置,Bbg 代表所有的背景bounding box(負樣本)。
因此可以看出,整體loss函數主要分爲2大塊:(1)候選bounding box是否不屬於負樣本的指示函數,(2)候選bbox與ground truth之間的loss。前部分主要判斷該bbox是否滿足條件,後部分則計算bbox的相對變化與ground truth直接的loss,loss函數通過每一iterative step進行更新。

實驗結果:

文章展示大量優秀和不好的實驗結果,這裏僅僅展示優秀結果,可以看出,一步步下bbox向ground truth的迴歸還是非常成功的。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章