Regionlets for Generic Object Detection

Regionlets for Generic Object Detection

本文是對這篇文章的翻譯和自我理解,文章下載地址:http://download.csdn.net/detail/autocyz/8569687


摘要:

對於一般物體檢測,現在面對的問題是如何用比較簡單的計算方法來解決物體的角度的變化所帶來的識別問題。要想解決這種問題,那就必須要求有一種靈活的物體描述方法,並且這種方法對於處在不同位置的物體均能進行很好的評判。

基於這種情況,作者採用級聯的boosting分類器,建立了一種物體分類模型。這種模型包含了不同的特徵類型。而這些特徵類型是通過計算局部區域特徵得到的。這些特徵被稱作regionlet。

regionlet是基本特徵區域,它是根據任意分辨率的檢測窗口成比例定義的。將那些具有相對位置關係的regionlet放在一組中,用來描繪物體中的紋理分佈。

爲了適應物體的形變,作者將那些regionlets特徵合併到一個一維的特徵中。然後作者計算物體的邊框,通過這些邊框來獲取分割的起點,並將起點的個數限制在數千個。


Introduction:

雖然對於剛性物體(形狀不會變化或者變化較小)的檢測取得了不小的成功,但是一般物體的檢測任然有很多問題需要解決。目前主要的問題仍舊是物體的形變帶來的識別問題。而造成這種問題的原因又有兩種,一種是物體是本身的形變,比如貓的,其不同的動作都會造成其模樣的變化;另一種原因是因爲視覺的角度和距離變化導致的,比如車輛,雖然其模樣不會改變,但是站在不同的角度和距離,看到的模樣也是不一樣的。

上面所說的這些問題,也說明了對於物體種類表達的一個比較重要的問題。一方面,一個能夠很好的描述剛性物體特徵的模板可能幾乎不能夠適用於會形變的物體。另一方面呢,一個有很好的形變容忍性的模板可能會導致在檢測剛性物體時定位不準或者相對的錯誤率。

 

在文章中,作者提出了一種新的一般物體表達策略,這種新的策略將自適應的形變解決方法融合進分類器的學習和特徵提取中。在這中方法中,採用級聯的boosting分類器來對物體框進行分類。在boosting中,每一個弱分類器都以方框內的區域特徵響應作爲輸入,並且這些區域依次用一組子區域進行表達,這些子區域就稱之爲regionlets。當然,這些regionlets並不是隨機選取的,而是用boosting從一個巨大的候選池中挑選出來的。

一方面,regionlets在區域中的相對位置以及區域在物體框中的位置都是比較穩定的,因此這種regionlet表達方法能夠建立比較細緻的空間表達模型。另一方面,每一組regionlets的特徵響應都被合併成一維的特徵,這個一維的特徵對於局部形變有比較好的魯棒性。

另外,爲了提高regionlet模型的靈活性,作者採用了不同的大小和長寬比的regionlet,同時,採取利用選擇性搜索策略,這樣獲取的候選框的數量在數千數量級,遠遠比採用滑動窗口方法的數量少。

這篇文章主要的貢獻有兩點:1、提出了regionlet的方法,這種方法能夠從任意的框中靈活的提取特徵。2、對於一類物體來說,基於regionlet的表達方式,不僅在物體內建立了相對空間分佈模型,而且通過結合boosting選取的regionlets以及將一組regionlets聚合在一起的特徵響應這兩種方法,使其能夠很好的適應物體變化的情況,尤其是形變。

 

regionlet的定義:

對於物體檢測,物體的分類本質上來說是由分類器來定義的。而這個分類器包含了物體的外貌特徵和空間分佈。

物體的外貌特徵一般是從包含物體的矩形區域中提取的。在物體內部,用小的矩形框提取特徵,這種特徵有很好的局部性,但是對於形變的處理較差。用大的矩形框提取,雖然對形變有很好的處理能力,但是又不能很好的精確定位。然而,當物體發生較大的變化,尤其是形變時,大的矩形框也可能也無法提取物體特徵了。因爲,在矩形框的內部,可能有些部分的信息是無用的,甚至是有干擾性的。

鑑於上面的情況,作者就想,能不能找到一些子區域——regionlets,將這些子區域作爲特徵提取的基本模板,然後將這些模板放在一組中,這樣的一組特徵能夠更加靈活的描述不同的物體,並且對於形變也有很好的容忍性


以上面的圖爲例,圖中的第一列是待檢測的物體——人,圖中第二列中黑色方框代表的是原圖的大小,起內部的藍色方框是提取特徵的區域——R,這裏提取人的特徵主要是提取人的上半身的特徵。藍色框內的橙色矩形框是提取特徵的子區域——regionlet,這裏的regionlet是取手所在的位置,因爲人雖然有形變,但是人的手形變的程度較小。將第二列中的三個regionlet組合在一起,就變成了最後一幅圖中r1,r2,r3,即regionlets。

下面來仔細的分析一下這幅圖:首先是regionlet的選取,這裏是選取了人比較有代表性的手,這三幅圖人的身體都是有形變的,而形變的最大因素便是手位置的變化。但是注意到手的位置雖然發生了變化,但是手本身的形變在圖中看來是比較小的。這一組regionlet的選取比較巧妙,每一個單獨的regionlet有很好的代表性,能夠比較的突出的表現人的特徵,而組合在一組的regionlets,對於在不同位置的手的情況均能夠準確的提取手的特徵,能夠很好的處理形變的情況,一舉兩得,當然這只是一幅簡單的示意圖,在實際的算法中,一個R區域,不會只有一個regionlet的,並且也不是這樣通過人爲的分析特徵來判定regionlet的位置的,至於如何確定這些regionlets的,後面會講。

 

 

Region中特徵的提取:

從region——R中提取特徵的過程主要有兩步:

第一步:分別提取每個regionlet的HOG和LBP特徵。

第二步:將這些從regionlets中提取的特徵組合在一起。 

 

第一步 比較簡單,不做贅述,這裏詳細的講一下第二步的實現過程。

作者將regionlet提取的特徵組合在一起的過程其實是一個特徵篩選的過程,他是在regionlets中選出最能代表region特徵的項。

如上圖,作者先提取這些regionlets的串聯低維特徵特徵,得到了the learned dimension那一項,然後通過一個boosting學習機,選出最與衆不同的一項。便發現第一項是最與衆不同不同的,因爲在含有手的那個regionlet區域,其第一項的特徵明顯高於另外兩個regionlet的第一項。最後作者就選用這三個regionlet的第一項中有最強的特徵響應的那一項作爲整個區域R的特徵表達。



尺度歸一化的檢測窗口:

作者的regionlet方法是在物體候選框中實現的。候選框的獲取是參考這篇論文K. E. A. Van de Sande, J. R. R. Uijlings, T. Gevers, and A. W. M.  Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011.這裏不做贅述。

採用了上訴的候選框獲取方法,獲取了候選框之後,便要用檢測窗口對候選區域進行檢測了。在檢測之前,作者對檢測窗口進行了尺度歸一化處理,處理方法如下:


如上圖所示,對於圖(a),其圖爲一個小的候選窗口,其大小爲(h,w),現在用大小爲(l,t,r,b)的檢測框對此候選窗口進行檢測。當來了一個比較大的候選窗口時,假設其大小爲(h’,w’)對應上圖的(b),此時若仍舊採用大小爲(l,t,r,b)顯然檢測相對位置變了,這不符合regionlet的相對位置不變的特性,因此作者首先在圖(a)中對檢測窗口進行歸一化,求得歸一化的比例尺度(l/w,t/h,r/w,b/h),當檢測窗口變成了大的(h’,w’)時,其檢測窗口就變成了(lw’/w,th’/h,rw’/w,bh’/h)。這種歸一化窗口的方法能夠在不同尺寸的圖像上直接進行檢測。

 

建立region和regionlets pool:

作者建立了一個過完備的region和regionlet pool,裏面包含了不同大小、不同位置、不同長寬比的region和regionlet。產生方法如下:

方法中的R’= (l’, t’, r’, b’, k) ,k代表region的低維特徵向量的第K個元素。



發佈了65 篇原創文章 · 獲贊 366 · 訪問量 60萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章