Histograms of Oriented Gradients (HOG)理解



HOG descriptors 是應用在計算機視覺和圖像處理領域,用於目標檢測的特徵描述器。這項技術是用來計算局部圖像梯度的方向信息的統計值。這種方法跟邊緣方向直方圖(edge orientation histograms)、尺度不變特徵變換(scale-invariantfeature transform descriptors以及形狀上下文方法( shape contexts)有很多相似之處,但與它們的不同點是:HOG描述器是在一個網格密集的大小統一的細胞單元(dense grid of uniformly spaced cells)上計算,而且爲了提高性能,還採用了重疊的局部對比度歸一化(overlapping local contrast normalization)技術。這篇文章的作者NavneetDalalBill Triggs是法國國家計算機技術和控制研究所French National Institute for Research in Computer Science andControl (INRIA)的研究員。他們在這篇文章中首次提出了HOG方法。這篇文章被髮表在2005年的CVPR上。他們主要是將這種方法應用在靜態圖像中的行人檢測上,但在後來,他們也將其應用在電影和視頻中的行人檢測,以及靜態圖像中的車輛和常見動物的檢測。HOG描述器最重要的思想是:在一副圖像中,局部目標的表象和形狀(appearance and shape)能夠被梯度或邊緣的方向密度分佈很好地描述。具體的實現方法是:首先將圖像分成小的連通區域,我們把它叫細胞單元。然後採集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合起來就可以構成特徵描述器。爲了提高性能,我們還可以把這些局部直方圖在圖像的更大的範圍內(我們把它叫區間或block)進行對比度歸一化(contrast-normalized),所採用的方法是:先計算各直方圖在這個區間(block)中的密度,然後根據這個密度對區間中的各個細胞單元做歸一化。通過這個歸一化後,能對光照變化和陰影獲得更好的效果。 

與其他的特徵描述方法相比,HOG描述器後很多優點。首先,由於HOG方法是在圖像的局部細胞單元上操作,所以它對圖像幾何的(geometric)和光學的photometric)形變都能保持很好的不變性,這兩種形變只會出現在更大的空間領域上。其次,作者通過實驗發現,在粗的空域抽樣(coarse spatial sampling)、精細的方向抽樣(fineorientation sampling)以及較強的局部光學歸一化(strong local photometric normalization)等條件下,只要行人大體上能夠保持直立的姿勢,就容許行人有一些細微的肢體動作,這些細微的動作可以被忽略而不影響檢測效果。綜上所述,HOG方法是特別適合於做圖像中的行人檢測的。 

算法的實現:色彩和伽馬歸一化 color andgamma normalization作者分別在灰度空間、RGB色彩空間和LAB色彩空間上對圖像進行色彩和伽馬歸一化,但實驗結果顯示,這個歸一化的預處理工作對最後的結果沒有影響,原因可能是:在後續步驟中也有歸一化的過程,那些過程可以取代這個預處理的歸一化。所以,在實際應用中,這一步可以省略。梯度的計算(Gradientcomputation最常用的方法是:簡單地使用一個一維的離散微分模板(1-D centered point discrete derivative mask)在一個方向上或者同時在水平和垂直兩個方向上對圖像進行處理,更確切地說,這個方法需要使用下面的濾波器核濾除圖像中的色彩或變化劇烈的數據coloror intensity data作者也嘗試了其他一些更復雜的模板,如3×3 Sobel 模板,或對角線模板(diagonal masks),但是在這個行人檢測的實驗中,這些複雜模板的表現都較差,所以作者的結論是:模板越簡單,效果反而越好。作者也嘗試了在使用微分模板前加入一個高斯平滑濾波,但是這個高斯平滑濾波的加入使得檢測效果更差,原因是:許多有用的圖像信息是來自變化劇烈的邊緣,而在計算梯度之前加入高斯濾波會把這些邊緣濾除掉。  構建方向的直方圖(creatingthe orientation histograms)第三步就是爲圖像的每個細胞單元構建梯度方向直方圖。細胞單元中的每一個像素點都爲某個基於方向的直方圖通道(orientation-based histogram channel)投票。投票是採取加權投票(weightedvoting)的方式,即每一票都是帶權值的,這個權值是根據該像素點的梯度幅度計算出來。可以採用幅值本身或者它的函數來表示這個權值,實際測試表明:使用幅值來表示權值能獲得最佳的效果,當然,也可以選擇幅值的函數來表示,比如幅值的平方根(square root)、幅值的平方(square of thegradient magnitude)、幅值的截斷形式(clipped version of the magnitude)等。細胞單元可以是矩形的(rectangular),也可以是星形的(radial)。直方圖通道是平均分佈在0-1800(無 向)或0-3600(有向)範圍內。作者發現,採用無向的梯度和9個直方圖通道,能在行人檢測試驗中取得最佳的效果。

把細胞單元組合成大的區間(groupingthe cells together into larger blocks)由於局部光照的變化 variations ofillumination)以及前景-背景對比度(foreground-background contrast)的變化,使得梯度強度(gradientstrengths)的變化範圍非常大。這就需要對梯度強度做歸一化,作者採取的辦法是:把各個細胞單元組合成大的、空間上連通的區間blocks)。 這樣以來,HOG描述器就變成了由各區間所有細胞單元的直方圖成分所組成的一個向量。這些區間是互有重疊的,這就意味着:每一個細胞單元的輸出都多次作用於最終的描述器。區間有兩個主要的幾何形狀——矩形區間(R-HOG)和環形區間(C-HOG)。R-HOG區間大體上是一些方形的格子,它可以有三個參數來表徵:每個區間中細胞單元的數目、每個細胞單元中像素點的數目、每個細胞的直方圖通道數目。作者通過實驗表明,行人檢測的最佳參數設置是:3×3細胞 /區間、6×6像素/細胞、9個直方圖通道。作者還發現,在對直方圖做處理之前,給每個區間(block)加一個高斯空域窗口(Gaussian spatialwindow)是非常必要的,因爲這樣可以降低邊緣的周圍像素點(pixels around theedge)的權重 R- HOGSIFT描述器看起來很相似,但他們的不同之處是:R-HOG是在單一尺度下、密集的網格內、沒有對方向排序的情況下被計算出來(are computed in dense grids at some singlescale without orientation alignment);而SIFT描述器是在多尺度下、稀疏的圖像關鍵點上、對方向排序的情況下被計算出來(are computed at sparse scale-invariant key image pointsand are rotated to align orientation)。補充一點,R-HOG是各區間被組合起來用於對空域信息進行編碼(are used in conjunction to encode spatial form information),而SIFT的各描述器是單獨使用的(areused singly)。 C- HO區間(blocks)有兩種不同的形式,它們的區別在於:一個的中心細胞是完整的,一個的中心細胞是被分割的。如右圖所示:作者發現 C-HOG的這兩種形式都能取得相同的效果。C-HOG區間(blocks)可以用四個參數來表徵:角度盒子的個數(numberof angular bins)、半徑盒子個數(numberof radial bins)、中心盒子的半徑(radiusof the center bin)、半徑的伸展因子(expansionfactor for the radius)。通過實驗,對於行人檢測,最佳的參數設置爲:4個角度盒子、2個半徑盒子、中心盒子半徑爲4個像素、伸展因子爲2。前面提到過,對於R-HOG,中間加一個高斯空域窗口是非常有必要的,但對於C-HOG,這顯得沒有必要。C-HOG看起來很像基於形狀上下文(Shape Contexts)的方法,但不同之處是:C-HOG的區間中包含的細胞單元有多個方向通道(orientation channels),而基於形狀上下文的方法僅僅只用到了一個單一的邊緣存在數(edge presence count)。區間歸一化Block normalization)作者採用了四中不同的方法對區間進行歸一化,並對結果進行了比較。引入v表示一個還沒有被歸一化的向量,它包含了給定區間(block)的所有直方圖信息。| | vk | |表示vk階範數,這裏的k12。用e表示一個很小的常數。這時,歸一化因子可以表示如下:L2-norm: L1-norm: L1-sqrt:還有第四種歸一化方式:L2-Hys,它可以通過先進行L2-norm,對結果進行截短(clipping),然後再重新歸一化得到。作者發現:採用L2- Hys L2-norm L1-sqrt方式所取得的效果是一樣的,L1-norm稍微表現出一點點不可靠性。但是對於沒有被歸一化的數據來說,這四種方法都表現出來顯着的改進。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章