圖像三大特徵

轉自：https://blog.csdn.net/SingDancer/article/details/52974839?utm_source=copy

原文 http://dataunion.org/20584.html

（一）HOG特徵

1、HOG特徵：

方向梯度直方圖（Histogram of Oriented Gradient, HOG）特徵是一種在計算機視覺和圖像處理中用來進行物體檢測的特徵描述子。它通過計算和統計圖像局部區域的梯度方向直方圖來構成特徵。Hog特徵結合 SVM分類器已經被廣泛應用於圖像識別中，尤其在行人檢測中獲得了極大的成功。需要提醒的是，HOG+SVM進行行人檢測的方法是法國研究人員Dalal 在2005的CVPR上提出的，而如今雖然有很多行人檢測算法不斷提出，但基本都是以HOG+SVM的思路爲主。

（1）主要思想：

在一副圖像中，局部目標的表象和形狀（appearance and shape）能夠被梯度或邊緣的方向密度分佈很好地描述。（本質：梯度的統計信息，而梯度主要存在於邊緣的地方）。

（2）具體的實現方法是：

首先將圖像分成小的連通區域，我們把它叫細胞單元。然後採集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合起來就可以構成特徵描述器。

（3）提高性能：

把這些局部直方圖在圖像的更大的範圍內（我們把它叫區間或block）進行對比度歸一化（contrast-normalized），所採用的方法是：先計算各直方圖在這個區間（block）中的密度，然後根據這個密度對區間中的各個細胞單元做歸一化。通過這個歸一化後，能對光照變化和陰影獲得更好的效果。

（4）優點：

與其他的特徵描述方法相比，HOG有很多優點。首先，由於HOG是在圖像的局部方格單元上操作，所以它對圖像幾何的和光學的形變都能保持很好的不變性，這兩種形變只會出現在更大的空間領域上。其次，在粗的空域抽樣、精細的方向抽樣以及較強的局部光學歸一化等條件下，只要行人大體上能夠保持直立的姿勢，可以容許行人有一些細微的肢體動作，這些細微的動作可以被忽略而不影響檢測效果。因此HOG特徵是特別適合於做圖像中的人體檢測的。

2、HOG特徵提取算法的實現過程：

大概過程：

HOG特徵提取方法就是將一個image（你要檢測的目標或者掃描窗口）：

1）灰度化（將圖像看做一個x,y,z（灰度）的三維圖像）；

2）採用Gamma校正法對輸入圖像進行顏色空間的標準化（歸一化）；目的是調節圖像的對比度，降低圖像局部的陰影和光照變化所造成的影響，同時可以抑制噪音的干擾；

3）計算圖像每個像素的梯度（包括大小和方向）；主要是爲了捕獲輪廓信息，同時進一步弱化光照的干擾。

4）將圖像劃分成小cells（例如6*6像素/cell）；

5）統計每個cell的梯度直方圖（不同梯度的個數），即可形成每個cell的descriptor；

6）將每幾個cell組成一個block（例如3*3個cell/block），一個block內所有cell的特徵descriptor串聯起來便得到該block的HOG特徵descriptor。

7）將圖像image內的所有block的HOG特徵descriptor串聯起來就可以得到該image（你要檢測的目標）的HOG特徵descriptor了。這個就是最終的可供分類使用的特徵向量了。

具體每一步的詳細過程如下：

（1）標準化gamma空間和顏色空間

爲了減少光照因素的影響，首先需要將整個圖像進行規範化（歸一化）。在圖像的紋理強度中，局部的表層曝光貢獻的比重較大，所以，這種壓縮處理能夠有效地降低圖像局部的陰影和光照變化。因爲顏色信息作用不大，通常先轉化爲灰度圖；

Gamma壓縮公式：

比如可以取Gamma=1/2；

（2）計算圖像梯度

計算圖像橫座標和縱座標方向的梯度，並據此計算每個像素位置的梯度方向值；求導操作不僅能夠捕獲輪廓，人影和一些紋理信息，還能進一步弱化光照的影響。

圖像中像素點(x,y)的梯度爲：

最常用的方法是：首先用[-1,0,1]梯度算子對原圖像做卷積運算，得到x方向（水平方向，以向右爲正方向）的梯度分量gradscalx，然後用[1,0,-1] T 梯度算子對原圖像做卷積運算，得到y方向（豎直方向，以向上爲正方向）的梯度分量gradscaly。然後再用以上公式計算該像素點的梯度大小和方向。

（3）爲每個細胞單元構建梯度方向直方圖

第三步的目的是爲局部圖像區域提供一個編碼，同時能夠保持對圖像中人體對象的姿勢和外觀的弱敏感性。

我們將圖像分成若干個“單元格cell”，例如每個cell爲6*6個像素。假設我們採用9個bin的直方圖來統計這6*6個像素的梯度信息。也就是將cell的梯度方向360度分成9個方向塊，如圖所示：例如：如果這個像素的梯度方向是20-40度，直方圖第2個bin的計數就加一，這樣，對 cell內每個像素用梯度方向在直方圖中進行加權投影（映射到固定的角度範圍），就可以得到這個cell的梯度方向直方圖了，就是該cell對應的9維特徵向量（因爲有9個bin）。

像素梯度方向用到了，那麼梯度大小呢？梯度大小就是作爲投影的權值的。例如說：這個像素的梯度方向是20-40度，然後它的梯度大小是2（假設啊），那麼直方圖第2個bin的計數就不是加一了，而是加二（假設啊）。

細胞單元可以是矩形的（rectangular），也可以是星形的（radial）。

（4）把細胞單元組合成大的塊（block），塊內歸一化梯度直方圖

由於局部光照的變化以及前景-背景對比度的變化，使得梯度強度的變化範圍非常大。這就需要對梯度強度做歸一化。歸一化能夠進一步地對光照、陰影和邊緣進行壓縮。

作者採取的辦法是：把各個細胞單元組合成大的、空間上連通的區間（blocks）。這樣，一個block內所有cell的特徵向量串聯起來便得到該block的HOG特徵。這些區間是互有重疊的，這就意味着：每一個單元格的特徵會以不同的結果多次出現在最後的特徵向量中。我們將歸一化之後的塊描述符（向量）就稱之爲HOG描述符。

區間有兩個主要的幾何形狀——矩形區間（R-HOG）和環形區間（C-HOG）。R-HOG區間大體上是一些方形的格子，它可以有三個參數來表徵：每個區間中細胞單元的數目、每個細胞單元中像素點的數目、每個細胞的直方圖通道數目。

例如：行人檢測的最佳參數設置是：3×3細胞/區間、6×6像素/細胞、9個直方圖通道。則一塊的特徵數爲：3*3*9；

（5）收集HOG特徵

最後一步就是將檢測窗口中所有重疊的塊進行HOG特徵的收集，並將它們結合成最終的特徵向量供分類使用。

（6）那麼一個圖像的HOG特徵維數是多少呢？

順便做個總結：Dalal提出的Hog特徵提取的過程：把樣本圖像分割爲若干個像素的單元（cell），把梯度方向平均劃分爲9個區間（bin），在每個單元裏面對所有像素的梯度方向在各個方向區間進行直方圖統計，得到一個9維的特徵向量，每相鄰的4個單元構成一個塊（block），把一個塊內的特徵向量聯起來得到36維的特徵向量，用塊對樣本圖像進行掃描，掃描步長爲一個單元。最後將所有塊的特徵串聯起來，就得到了人體的特徵。例如，對於64*128的圖像而言，每16*16的像素組成一個cell，每2*2個cell組成一個塊，因爲每個cell有9個特徵，所以每個塊內有 4*9=36個特徵，以8個像素爲步長，那麼，水平方向將有7個掃描窗口，垂直方向將有15個掃描窗口。也就是說，64*128的圖片，總共有 36*7*15=3780個特徵。

（二）LBP特徵

LBP（Local Binary Pattern，局部二值模式）是一種用來描述圖像局部紋理特徵的算子；它具有旋轉不變性和灰度不變性等顯著的優點。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出，用於紋理特徵提取。而且，提取的特徵是圖像的局部的紋理特徵；

1、LBP特徵的描述

原始的LBP算子定義爲在3*3的窗口內，以窗口中心像素爲閾值，將相鄰的8個像素的灰度值與其進行比較，若周圍像素值大於中心像素值，則該像素點的位置被標記爲1，否則爲0。這樣，3*3鄰域內的8個點經比較可產生8位二進制數（通常轉換爲十進制數即LBP碼，共256種），即得到該窗口中心像素點的LBP值，並用這個值來反映該區域的紋理信息。如下圖所示：

LBP的改進版本：

原始的LBP提出後，研究人員不斷對其提出了各種改進和優化。

（1）圓形LBP算子：

基本的 LBP算子的最大缺陷在於它只覆蓋了一個固定半徑範圍內的小區域，這顯然不能滿足不同尺寸和頻率紋理的需要。爲了適應不同尺度的紋理特徵，並達到灰度和旋轉不變性的要求，Ojala等對 LBP 算子進行了改進，將 3×3鄰域擴展到任意鄰域，並用圓形鄰域代替了正方形鄰域，改進後的 LBP 算子允許在半徑爲 R 的圓形鄰域內有任意多個像素點。從而得到了諸如半徑爲R的圓形區域內含有P個採樣點的LBP算子；

（2）LBP旋轉不變模式

從 LBP 的定義可以看出，LBP 算子是灰度不變的，但卻不是旋轉不變的。圖像的旋轉就會得到不同的 LBP值。

Maenpaa等人又將 LBP算子進行了擴展，提出了具有旋轉不變性的 LBP 算子，即不斷旋轉圓形鄰域得到一系列初始定義的 LBP值，取其最小值作爲該鄰域的 LBP 值。

圖 2.5 給出了求取旋轉不變的 LBP 的過程示意圖，圖中算子下方的數字表示該算子對應的 LBP值，圖中所示的 8 種 LBP模式，經過旋轉不變的處理，最終得到的具有旋轉不變性的 LBP值爲 15。也就是說，圖中的 8種 LBP 模式對應的旋轉不變的 LBP模式都是00001111。

（3）LBP等價模式

一個LBP算子可以產生不同的二進制模式，對於半徑爲R的圓形區域內含有P個採樣點的LBP算子將會產生P 2 種模式。很顯然，隨着鄰域集內採樣點數的增加，二進制模式的種類是急劇增加的。例如：5×5鄰域內20個採樣點，有2 20 ＝1,048,576種二進制模式。如此多的二值模式無論對於紋理的提取還是對於紋理的識別、分類及信息的存取都是不利的。同時，過多的模式種類對於紋理的表達是不利的。例如，將LBP算子用於紋理分類或人臉識別時，常採用LBP模式的統計直方圖來表達圖像的信息，而較多的模式種類將使得數據量過大，且直方圖過於稀疏。因此，需要對原始的LBP模式進行降維，使得數據量減少的情況下能最好的代表圖像的信息。

爲了解決二進制模式過多的問題，提高統計性，Ojala提出了採用一種“等價模式”（Uniform Pattern）來對LBP算子的模式種類進行降維。Ojala等認爲，在實際圖像中，絕大多數LBP模式最多隻包含兩次從1到0或從0到1的跳變。因此，Ojala將“等價模式”定義爲：當某個LBP所對應的循環二進制數從0到1或從1到0最多有兩次跳變時，該LBP所對應的二進制就稱爲一個等價模式類。如00000000（0次跳變），00000111（只含一次從0到1的跳變），10001111（先由1跳到0，再由0跳到1，共兩次跳變）都是等價模式類。除等價模式類以外的模式都歸爲另一類，稱爲混合模式類，例如10010111（共四次跳變）（這是我的個人理解，不知道對不對）。

通過這樣的改進，二進制模式的種類大大減少，而不會丟失任何信息。模式數量由原來的2 P 種減少爲 P ( P-1)+2種，其中P表示鄰域集內的採樣點數。對於3×3鄰域內8個採樣點來說，二進制模式由原始的256種減少爲58種，這使得特徵向量的維數更少，並且可以減少高頻噪聲帶來的影響。

2、LBP特徵用於檢測的原理

顯而易見的是，上述提取的LBP算子在每個像素點都可以得到一個LBP“編碼”，那麼，對一幅圖像（記錄的是每個像素點的灰度值）提取其原始的LBP算子之後，得到的原始LBP特徵依然是“一幅圖片”（記錄的是每個像素點的LBP值）。

LBP的應用中，如紋理分類、人臉分析等，一般都不將LBP圖譜作爲特徵向量用於分類識別，而是採用LBP特徵譜的統計直方圖作爲特徵向量用於分類識別。

因爲，從上面的分析我們可以看出，這個“特徵”跟位置信息是緊密相關的。直接對兩幅圖片提取這種“特徵”，並進行判別分析的話，會因爲“位置沒有對準”而產生很大的誤差。後來，研究人員發現，可以將一幅圖片劃分爲若干的子區域，對每個子區域內的每個像素點都提取LBP特徵，然後，在每個子區域內建立LBP特徵的統計直方圖。如此一來，每個子區域，就可以用一個統計直方圖來進行描述；整個圖片就由若干個統計直方圖組成；

例如：一幅100*100像素大小的圖片，劃分爲10*10=100個子區域（可以通過多種方式來劃分區域），每個子區域的大小爲10*10像素；在每個子區域內的每個像素點，提取其LBP特徵，然後，建立統計直方圖；這樣，這幅圖片就有10*10個子區域，也就有了10*10個統計直方圖，利用這10*10個統計直方圖，就可以描述這幅圖片了。之後，我們利用各種相似性度量函數，就可以判斷兩幅圖像之間的相似性了；

3、對LBP特徵向量進行提取的步驟

（1）首先將檢測窗口劃分爲16×16的小區域（cell）；

（2）對於每個cell中的一個像素，將相鄰的8個像素的灰度值與其進行比較，若周圍像素值大於中心像素值，則該像素點的位置被標記爲1，否則爲0。這樣，3*3鄰域內的8個點經比較可產生8位二進制數，即得到該窗口中心像素點的LBP值；

（3）然後計算每個cell的直方圖，即每個數字（假定是十進制數LBP值）出現的頻率；然後對該直方圖進行歸一化處理。

（4）最後將得到的每個cell的統計直方圖進行連接成爲一個特徵向量，也就是整幅圖的LBP紋理特徵向量；

然後便可利用SVM或者其他機器學習算法進行分類了。

（三）Haar特徵

1、Haar-like特徵

Haar-like特徵最早是由Papageorgiou等應用於人臉表示，Viola和Jones在此基礎上，使用3種類型4種形式的特徵。

Haar特徵分爲三類：邊緣特徵、線性特徵、中心特徵和對角線特徵，組合成特徵模板。特徵模板內有白色和黑色兩種矩形，並定義該模板的特徵值爲白色矩形像素和減去黑色矩形像素和。Haar特徵值反映了圖像的灰度變化情況。例如：臉部的一些特徵能由矩形特徵簡單的描述，如：眼睛要比臉頰顏色要深，鼻樑兩側比鼻樑顏色要深，嘴巴比周圍顏色要深等。但矩形特徵只對一些簡單的圖形結構，如邊緣、線段較敏感，所以只能描述特定走向（水平、垂直、對角）的結構。

對於圖中的A, B和D這類特徵，特徵數值計算公式爲：v=Sum白-Sum黑，而對於C來說，計算公式如下：v=Sum白-2*Sum黑；之所以將黑色區域像素和乘以2，是爲了使兩種矩形區域中像素數目一致。

通過改變特徵模板的大小和位置，可在圖像子窗口中窮舉出大量的特徵。上圖的特徵模板稱爲“特徵原型”；特徵原型在圖像子窗口中擴展（平移伸縮）得到的特徵稱爲“矩形特徵”；矩形特徵的值稱爲“特徵值”。

矩形特徵可位於圖像任意位置，大小也可以任意改變，所以矩形特徵值是矩形模版類別、矩形位置和矩形大小這三個因素的函數。故類別、大小和位置的變化，使得很小的檢測窗口含有非常多的矩形特徵，如：在24*24像素大小的檢測窗口內矩形特徵數量可以達到16萬個。這樣就有兩個問題需要解決了：（1）如何快速計算那麼多的特徵？—積分圖大顯神通；（2）哪些矩形特徵纔是對分類器分類最有效的？—如通過AdaBoost算法來訓練（這一塊這裏不討論，具體見 http://blog.csdn.net/zouxy09/article/details/7922923 ）

2、Haar-like特徵的計算—積分圖

積分圖就是隻遍歷一次圖像就可以求出圖像中所有區域像素和的快速算法，大大的提高了圖像特徵值計算的效率。

積分圖主要的思想是將圖像從起點開始到各個點所形成的矩形區域像素之和作爲一個數組的元素保存在內存中，當要計算某個區域的像素和時可以直接索引數組的元素，不用重新計算這個區域的像素和，從而加快了計算（這有個相應的稱呼，叫做動態規劃算法）。積分圖能夠在多種尺度下，使用相同的時間（常數時間）來計算不同的特徵，因此大大提高了檢測速度。

我們來看看它是怎麼做到的。

積分圖是一種能夠描述全局信息的矩陣表示方法。積分圖的構造方式是位置（i,j）處的值ii(i,j)是原圖像(i,j)左上角方向所有像素的和：