方向梯度直方圖(Histogram Of Gradient)詳解

特徵描述子(Feature Descriptor)

特徵描述子就是圖像的表示,抽取了有用的信息,丟掉了不相關的信息。通常特徵描述子會把一個w*h*3(寬高3,3個channel)的圖像轉換成一個長度爲n的向量/矩陣。比如一副64*128*3的圖像,經過轉換後輸出的圖像向量長度可以是3780。

什麼樣子的特徵是有用的呢?假設我們想要預測一張圖片裏面衣服上面的扣子,釦子通常是圓的,而且上面有幾個洞,那你就可以用邊緣檢測(edge detector),把圖片變成只有邊緣的圖像,然後就可以很容易的分辨了,那麼對於這張圖邊緣信息就是有用的,顏色信息就是沒有用的。而且好的特徵應該能夠區分鈕釦和其它圓形的東西的區別。

方向梯度直方圖(HOG)中,梯度的方向分佈被用作特徵。沿着一張圖片X和Y軸的方向上的梯度是很有用的,因爲在邊緣和角點的梯度值是很大的,我們知道邊緣和角點包含了很多物體的形狀信息。(HOG特徵描述子可以不侷限於一個長度,也可以用很多其他的長度,這裏只記錄一種計算方法。)

怎麼計算方向梯度直方圖呢?

我們會先用圖像的一個patch來解釋。

第一步:預處理

Patch可以是任意的尺寸,但是有一個固定的比例,比如當patch長寬比1:2,那patch大小可以是100*200, 128*256或者1000*2000,但不可以是101*205。

這裏有張圖是720*475的,我們選100*200大小的patch來計算HOG特徵,把這個patch從圖片裏面摳出來,然後再把大小調整成64*128。

第二步:計算梯度圖像

首先我們計算水平和垂直方向的梯度,再來計算梯度的直方圖。可以用下面的兩個kernel來計算,也可以直接用OpenCV裏面的kernel大小爲1的Sobel算子來計算。

horizontal_vertical_gradient_kernel (水平和垂直梯度)

調用OpenCV代碼如下:

// C++ gradient calculation.
// Read image
Mat img = imread("bolt.png");
img.convertTo(img, CV_32F, 1/255.0);

// Calculate gradients gx, gy
Mat gx, gy;
Sobel(img, gx, CV_32F, 1, 0, 1);
Sobel(img, gy, CV_32F, 0, 1, 1);

# Python gradient calculation 

# Read imageim = cv2.imread('bolt.png')
im = np.float32(im) / 255.0

# Calculate gradient
gx = cv2.Sobel(img, cv2.CV_32F, 1, 0, ksize=1)
gy = cv2.Sobel(img, cv2.CV_32F, 0, 1, ksize=1)

接着,用下面的公式來計算梯度的幅值g和方向theta:

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

gradient_direction_formula(梯度方向計算)

可以用OpenCV的cartToPolar函數來計算:

// C++ Calculate gradient magnitude and direction (in degrees)
Mat mag, angle;
cartToPolar(gx, gy, mag, angle, 1);

# Python Calculate gradient magnitude and direction ( in degrees )
mag, angle = cv2.cartToPolar(gx, gy, angleInDegrees=True)

計算得到的gradient圖如下:

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

左邊:x軸的梯度絕對值         中間:y軸的梯度絕對值             右邊:梯度幅值

從上面的圖像中可以看到x軸方向的梯度主要凸顯了垂直方向的線條,y軸方向的梯度凸顯了水平方向的梯度,梯度幅值凸顯了像素值有劇烈變化的地方。(注意:圖像的原點是圖片的左上角,x軸是水平的,y軸是垂直的)

圖像的梯度去掉了很多不必要的信息(比如不變的背景色),加重了輪廓。換句話說,你可以從梯度的圖像中輕而易舉的發現有個人。在每個像素點,都有一個幅值(magnitude)和方向,對於有顏色的圖片,會在3個channel上都計算梯度那麼相應的幅值就是3個channel上最大的幅值,角度(方向)是最大幅值所對應的角

第三步:在8*8的網格中計算梯度直方圖

在這一步,我們先把整個圖像劃分爲若干個8x8的小單元,稱爲cell,並計算每個cell的梯度直方圖。這個cell的尺寸也可以是其他值,根據具體的特徵而定。

爲什麼我們要把圖像分成若干個8x8的小單元?

這是因爲對於一整張梯度圖,其中的有效特徵是非常稀疏的,不但運算量大,而且效果可能還不好。於是我們就使用特徵描述符來表示一個更緊湊(compact)的特徵。

一個8*8的圖像有8*8*3=192個像素值(彩色圖有3個channel),每個像素的梯度包括兩個值(幅值magnitude和方向direction,magnitude取3個channel中最大值,然後direction取最大magnitude值對應的direction值),因此一個8x8的小單元(cell)就包含了8*8*2=128個值,因爲每個像素包括梯度的大小和方向。

現在我們要把這個8x8的小單元用長度爲9的數組來表示,這個數組就是梯度直方圖。這種表示方法不僅使得特徵更加緊湊,而且對單個像素值的變化不敏感,也就是能夠抗噪聲干擾。

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

這個patch的大小是64*128,把它分割成若干個8*8的cell,那麼一共有(64/8)*(128/8) = 8*16=128個網格,對於64*128的這幅patch來說,8*8的網格已經足夠大來表示有趣的特徵比如臉,頭等等。

直方圖是有9個bin的向量,代表的是角度0,20,40,60.....160。

我們先來看看每個8*8的cell的梯度都是什麼樣子:

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

中間這個圖的箭頭是梯度的方向,長度是梯度的大小,可以發現箭頭的指向方向是像素強度變化方向,幅值是強度變化的大小。

右邊的梯度方向矩陣中可以看到角度是0-180度,不是0-360度,這種被稱之爲"無符號"梯度("unsigned" gradients),因爲一個梯度和它的負數是用同一個數字表示的,也就是說一個梯度的箭頭以及它旋轉180度之後的箭頭方向被認爲是一樣的。那爲什麼不用0-360度的表示呢?在事件中發現unsigned gradients比signed gradients在行人檢測任務中效果更好。一些HOG的實現中可以讓你指定signed gradients。

下一步就是爲這些8*8的網格創建直方圖,直方圖包含了9個bin來對應0,20,40,...160這些角度。

下面這張圖解釋了這個過程。我們用了上一張圖裏面的那個網格的梯度幅值和方向。根據方向選擇用哪個bin, 根據幅值來確定這個bin的大小。先來看藍色圓圈圈出來的像素點,它的角度是80,幅值是2,所以它在第五個bin裏面加了2,再來看紅色的圈圓圈圈出來的像素點,它的角度是10,幅值是4,因爲角度10介於0-20度的中間(正好一半),所以把幅值一分爲二地放到0和20兩個bin裏面去。

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

這裏有個細節要注意,如果一個角度大於160度,也就是在160-180度之間,我們知道這裏角度0,180度是一樣的,所以在下面這個例子裏,像素的角度爲165度的時候,要把幅值按照比例放到0和160的bin裏面去。

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

把這8*8的cell裏面所有的像素點都分別加到這9個bin裏面去,就構建了一個9-bin的直方圖,上面的網格對應的直方圖如下:

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

可以看到直方圖中,0度和160附近有很大的權重,說明了大多數像素的梯度向上或者向下,也就是這個cell是個橫向邊緣

現在我們就可以用這9個數的梯度直方圖來代替原來很大的三維矩陣,即代替了8x8x2個值。

第四步: 16*16塊(block)歸一化

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

hog-16x16-block-normalization

在前面的步驟中,我們基於圖像的梯度對每個cell創建了一個直方圖。

但是圖像的梯度對整體光照非常敏感,比如通過將所有像素值除以2來使圖像變暗,那麼梯度幅值將減小一半,因此直方圖中的值也將減小一半。 理想情況下,我們希望我們的特徵描述符不會受到光照變化的影響,那麼我們就需要將直方圖“歸一化” 。

在說明如何歸一化直方圖之前,先看看長度爲3的向量是如何歸一化的。

假設我們有一個向量 [128,64,32],向量的長度爲,這叫做向量的L2範數。將這個向量的每個元素除以146.64就得到了歸一化向量 [0.87, 0.43, 0.22]

現在有一個新向量,是第一個向量的2倍 [128x2, 64x2, 32x2],也就是 [256, 128, 64],我們將這個向量進行歸一化,你可以看到歸一化後的結果與第一個向量歸一化後的結果相同。所以,對向量進行歸一化可以消除整體光照的影響。

知道了如何歸一化,現在來對block的梯度直方圖進行歸一化(注意不是cell),一個block有4個直方圖,將這4個直方圖拼接成長度爲36的向量,然後對這個向量進行歸一化。

因爲使用的是滑動窗口,滑動步長爲8個像素,所以每滑動一次,就在這個窗口上進行歸一化計算得到長度爲36的向量,並重復這個過程

第五步:計算HOG特徵向量

爲了計算這整個patch的特徵向量,需要把36*1的向量全部合併組成一個巨大的向量。向量的大小可以這麼計算:

  1. 我們有多少個16*16的塊?水平7個,垂直15個,總共有7*15=105次移動。

  2. 每個16*16的塊代表了36*1的向量。所以把他們放在一起也就是36*105=3780維向量。

這個得到的長度3780的向量就可以作爲整個圖像的特徵描述符。

通常HOG特徵描述子是畫出8*8網格中9*1歸一化的直方圖,見下圖。你可以發現直方圖的主要方向捕捉了這個人的外形,特別是軀幹和腿。

圖像學習之如何理解方向梯度直方圖(Histogram Of Gradient)

爲了顯示效果更明顯,我把cell的尺寸改爲(16, 16),對於每一個cell,畫出它歸一化後的梯度直方圖。如下圖所示,我們可以很明顯的看出一個人的輪廓。

參考:

HOG特徵詳解

Histogram of Oriented Gradients

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章