目標檢測常用特徵類型提取

本文介紹圖像識別和目標檢測中常用的特徵，分別是Haar（哈爾）特徵、LBF（local binary pattern）特徵、HOG（histogram of orientation gradient）特徵共
三種。

一、Haar特徵
參考鏈接https://blog.csdn.net/u013403054/article/details/78461083

1、Haar特徵最先由Paul Viola等人提出，後經過Rainer Lienhart等擴展引入45°傾斜特徵。Haar特徵分爲三類：邊緣特徵、線性特徵、中心特徵和對角線特徵，組合成特徵
模板。OpenCV（2.4.11版本）所使用的共計14種Haar特徵，包括5種Basic特徵、3種Core特徵和6種Titled(即45°旋轉)特徵。
在使用opencv自帶的訓練工具進行訓練時，haarFeatureParams參數中的mode參數正對應了訓練過程中所使用的特徵集合。
（1）如果mode爲BASIC，則只使用BASIC的5種Haar特徵進行訓練，訓練出的分類器也只包含這5種特徵。
（2）如果mode爲CORE，則使用BASIC的5種+CORE的3種Haar特徵進行訓練。
（3）如果mode爲ALL，則使用BASICA的5種+CORE的3種+ALL的6種Titled共14種特徵進行訓練。
默認使用BASIC模式，實際中訓練和檢測效果已經足夠好。不建議使用ALL參數，引入Titled傾斜特徵需要多計算一張傾斜積分圖，會極大的降低訓練和檢測速度。
2、矩形特徵模板的計算
haar特徵模板內有白色和黑色兩種矩形，Haar特徵值=整個Haar區域內像素和×權重 + 黑色區域內像素和×權重：
設置權值就是爲了抵消面積不等帶來的影響，保證所有Haar特徵的特徵值在灰度分佈絕對均勻的圖中爲0。
Haar特徵值反映了圖像的灰度變化情況。例如：臉部的一些特徵能由矩形特徵簡單的描述，如：眼睛要比臉頰顏色要深，鼻樑兩側比鼻樑顏色要深，嘴巴比周圍顏色要深等。
但矩形特徵只對一些簡單的圖形結構，如邊緣、線段較敏感，所以只能描述特定走向（水平、垂直、對角）的結構。
3、haar特徵的子特徵生成
Haar特徵矩形特徵可位於圖像任意位置，大小也可以任意改變，所以矩形特徵值是矩形模版類別、矩形位置和矩形大小這三個因素的函數。故類別、大小和位置的變化，使
得很小的檢測窗口含有非常多的矩形特徵，如：在24*24像素大小的檢測窗口內矩形特徵數量可以達到16萬個。白：黑區域面積比始終保持不變
以x3特徵爲例，在放大+平移過程中白：黑：白麪積比始終是1:1:1。首先在紅框所示的檢測窗口中生成大小爲3個像素的最小x3特徵；之後分別沿着x和y平移產生了在檢測
窗口中不同位置的大量最小3像素x3特徵；然後把最小x3特徵分別沿着x和y放大，再平移，又產生了一系列大一點x3特徵；然後繼續放大+平移，重複此過程，直到放大後的
x3和檢測窗口一樣大。這樣x3就產生了完整的x3系列特徵。
4、4、Haar-like特徵的計算-積分圖
目標：如何快速計算Haar特徵值
手段：積分圖。積分圖就是隻遍歷一次圖像就可以求出圖像中所有區域像素和的快速算法，大大的提高了圖像特徵值計算的效率。
積分圖主要的思想：將圖像從起點開始到各個點所形成的矩形區域像素之和作爲一個數組的元素保存在內存中，當要計算某個區域的像素和時可以直接索引數組的元素，
不用重新計算這個區域的像素和，從而加快了計算（這有個相應的稱呼，叫做動態規劃算法）。積分圖能夠在多種尺度下，使用相同的時間（常數時間）來計算不同的特徵，
因此大大提高了檢測速度。
我們來看看它是怎麼做到的。
積分圖是一種能夠描述全局信息的矩陣表示方法。積分圖的構造方式是位置（i,j）處的值ii(i,j)是原圖像(i,j)左上角方向所有像素的和：

積分圖構建算法：
（1）用s(i,j)表示行方向的累加和，初始化s(i,-1)=0;
（2）用ii(i,j)表示一個積分圖像，初始化ii(-1,i)=0；
（3）逐行掃描圖像，遞歸計算每個像素(i,j)行方向的累加和s(i,j)和積分圖像ii(i,j)的值
s(i,j)=s(i,j-1)+f(i,j)
ii(i,j)=ii(i-1,j)+s(i,j)
（4）掃描圖像一遍，當到達圖像右下角像素時，積分圖像ii就構造好了。
積分圖構造好之後，圖像中任何矩陣區域的像素累加和都可以通過簡單運算得到。
而Haar-like特徵值無非就是兩個矩陣像素和的差，同樣可以在常數時間內完成。所以矩形特徵的特徵值計算，只與此特徵矩形的端點的積分圖有關，所以不管此特
徵矩形的尺度變換如何，特徵值的計算所消耗的時間都是常量。這樣只要遍歷圖像一次，就可以求得所有子窗口的特徵值。
在實際中，如果使用旋轉特徵，則需要多計算一張積分圖。但是旋轉特徵的效果往往不理想，得不償失，不建議使用。

二、LBP特徵
參考鏈接https://blog.csdn.net/zouxy09/article/details/7929531
LBP（Local Binary Pattern，局部二值模式）是一種用來描述圖像局部紋理特徵的算子；它具有旋轉不變性和灰度不變性等顯著的優點。它是首先由T. Ojala,
M.Pietikäinen, 和 D. Harwood 在1994年提出，用於紋理特徵提取。而且，提取的特徵是圖像的局部的紋理特徵；
1、LBP特徵的描述

原始的LBP算子定義爲在3*3的窗口內，以窗口中心像素爲閾值，將相鄰的8個像素的灰度值與其進行比較，若周圍像素值大於中心像素值，則該像素點的位置被標記爲1，
否則爲0。這樣，3*3鄰域內的8個點經比較可產生8位二進制數（通常轉換爲十進制數即LBP碼，共256種），即得到該窗口中心像素點的LBP值，並用這個值來反映該區
域的紋理信息。
（1）圓形LBP算子：
基本的 LBP算子的最大缺陷在於它只覆蓋了一個固定半徑範圍內的小區域，這顯然不能滿足不同尺寸和頻率紋理的需要。爲了適應不同尺度的紋理特徵，並達到灰
度和旋轉不變性的要求，Ojala等對 LBP 算子進行了改進，將 3×3鄰域擴展到任意鄰域，並用圓形鄰域代替了正方形鄰域，改進後的 LBP 算子允許在半徑爲 R
的圓形鄰域內有任意多個像素點。從而得到了諸如半徑爲R的圓形區域內含有P個採樣點的LBP算子；
（2）LBP旋轉不變模式
從 LBP 的定義可以看出，LBP 算子是灰度不變的，但卻不是旋轉不變的。圖像的旋轉就會得到不同的 LBP值。Maenpaa等人又將 LBP算子進行了擴展，提出了具
有旋轉不變性的 LBP 算子，即不斷旋轉圓形鄰域得到一系列初始定義的 LBP值，取其最小值作爲該鄰域的 LBP 值。
（3）LBP等價模式
一個LBP算子可以產生不同的二進制模式，對於半徑爲R的圓形區域內含有P個採樣點的LBP算子將會產生P2種模式。很顯然，隨着鄰域集內採樣點數的增加，二進制模式
的種類是急劇增加的。例如：5×5鄰域內20個採樣點，有220＝1,048,576種二進制模式。如此多的二值模式無論對於紋理的提取還是對於紋理的識別、分類及信息的存取
都是不利的。同時，過多的模式種類對於紋理的表達是不利的。例如，將LBP算子用於紋理分類或人臉識別時，常採用LBP模式的統計直方圖來表達圖像的信息，而較多的
模式種類將使得數據量過大，且直方圖過於稀疏。因此，需要對原始的LBP模式進行降維，使得數據量減少的情況下能最好的代表圖像的信息。
爲了解決二進制模式過多的問題，提高統計性，Ojala提出了採用一種“等價模式”（Uniform Pattern）來對LBP算子的模式種類進行降維。Ojala等認爲，在實際圖像中
，絕大多數LBP模式最多隻包含兩次從1到0或從0到1的跳變。因此，Ojala將“等價模式”定義爲：當某個LBP所對應的循環二進制數從0到1或從1到0最多有兩次跳變時，
該LBP所對應的二進制就稱爲一個等價模式類。如00000000（0次跳變），00000111（只含一次從0到1的跳變），10001111（先由1跳到0，再由0跳到1，共兩次跳變）
都是等價模式類。除等價模式類以外的模式都歸爲另一類，稱爲混合模式類，例如10010111（共四次跳變）（這是我的個人理解，不知道對不對）。
通過這樣的改進，二進制模式的種類大大減少，而不會丟失任何信息。模式數量由原來的2P種減少爲 P ( P-1)+2種，其中P表示鄰域集內的採樣點數。對於3×3
鄰域內8個採樣點來說，二進制模式由原始的256種減少爲58種，這使得特徵向量的維數更少，並且可以減少高頻噪聲帶來的影響。
2、LBP特徵用於檢測的原理
顯而易見的是，上述提取的LBP算子在每個像素點都可以得到一個LBP“編碼”，那麼，對一幅圖像（記錄的是每個像素點的灰度值）提取其原始的LBP算子之後，得到的
原始LBP特徵依然是“一幅圖片”（記錄的是每個像素點的LBP值）。
LBP的應用中，如紋理分類、人臉分析等，一般都不將LBP圖譜作爲特徵向量用於分類識別，而是採用LBP特徵譜的統計直方圖作爲特徵向量用於分類識別。
因爲，從上面的分析我們可以看出，這個“特徵”跟位置信息是緊密相關的。直接對兩幅圖片提取這種“特徵”，並進行判別分析的話，會因爲“位置沒有對準”而產生很大
的誤差。後來，研究人員發現，可以將一幅圖片劃分爲若干的子區域，對每個子區域內的每個像素點都提取LBP特徵，然後，在每個子區域內建立LBP特徵的統計直方圖
。如此一來，每個子區域，就可以用一個統計直方圖來進行描述；整個圖片就由若干個統計直方圖組成；例如：一幅100*100像素大小的圖片，劃分爲10*10=100個子
區域（可以通過多種方式來劃分區域），每個子區域的大小爲10*10像素；在每個子區域內的每個像素點，提取其LBP特徵，然後，建立統計直方圖；這樣，這幅圖片就
有10*10個子區域，也就有了10*10個統計直方圖，利用這10*10個統計直方圖，就可以描述這幅圖片了。之後，我們利用各種相似性度量函數，就可以判斷兩幅圖像之
間的相似性了；
3、對LBP特徵向量進行提取的步驟
（1）首先將檢測窗口劃分爲16×16的小區域（cell）；
（2）對於每個cell中的一個像素，將相鄰的8個像素的灰度值與其進行比較，若周圍像素值大於中心像素值，則該像素點的位置被標記爲1，否則爲0。這樣，3*3鄰域內
的8個點經比較可產生8位二進制數，即得到該窗口中心像素點的LBP值；
（3）然後計算每個cell的直方圖，即每個數字（假定是十進制數LBP值）出現的頻率；然後對該直方圖進行歸一化處理。
（4）最後將得到的每個cell的統計直方圖進行連接成爲一個特徵向量，也就是整幅圖的LBP紋理特徵向量；
然後便可利用SVM或者其他機器學習算法進行分類了。

三、HOG特徵
1、HOG特徵描述：
方向梯度直方圖（Histogram of Oriented Gradient, HOG）特徵是一種在計算機視覺和圖像處理中用來進行物體檢測的特徵描述子。它通過計算和統計圖像局部
區域的梯度方向直方圖來構成特徵。Hog特徵結合SVM分類器已經被廣泛應用於圖像識別中，尤其在行人檢測中獲得了極大的成功。需要提醒的是，HOG+SVM進行行人
檢測的方法是法國研究人員Dalal在2005的CVPR上提出的，而如今雖然有很多行人檢測算法不斷提出，但基本都是以HOG+SVM的思路爲主。

（1）主要思想：在一副圖像中，局部目標的表象和形狀（appearance and shape）能夠被梯度或邊緣的方向密度分佈很好地描述。（本質：梯度的統計信息，而梯
度主要存在於邊緣的地方）。
（2）具體的實現方法是：首先將圖像分成小的連通區域，我們把它叫細胞單元。然後採集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合
起來就可以構成特徵描述器。
（3）提高性能：把這些局部直方圖在圖像的更大的範圍內（我們把它叫區間或block）進行對比度歸一化（contrast-normalized），所採用的方法是：先計算各直
方圖在這個區間（block）中的密度，然後根據這個密度對區間中的各個細胞單元做歸一化。通過這個歸一化後，能對光照變化和陰影獲得更好的效果。
（4）優點：與其他的特徵描述方法相比，HOG有很多優點。首先，由於HOG是在圖像的局部方格單元上操作，所以它對圖像幾何的和光學的形變都能保持很好的不變性，
這兩種形變只會出現在更大的空間領域上。其次，在粗的空域抽樣、精細的方向抽樣以及較強的局部光學歸一化等條件下，只要行人大體上能夠保持直立的姿勢，
可以容許行人有一些細微的肢體動作，這些細微的動作可以被忽略而不影響檢測效果。因此HOG特徵是特別適合於做圖像中的人體檢測的。

2、HOG特徵提取算法的實現過程：

HOG特徵提取方法就是將一個image（你要檢測的目標或者掃描窗口）：

（1）灰度化（將圖像看做一個x,y,z（灰度）的三維圖像）；
（2）採用Gamma校正法對輸入圖像進行顏色空間的標準化（歸一化）；目的是調節圖像的對比度，降低圖像局部的陰影和光照變化所造成的影響，同時可以抑制噪音
的干擾；
（3）計算圖像每個像素的梯度（包括大小和方向）；主要是爲了捕獲輪廓信息，同時進一步弱化光照的干擾。
（4）將圖像劃分成小cells（例如6*6像素/cell）；
（5）統計每個cell的梯度直方圖（不同梯度的個數），即可形成每個cell的descriptor；
（6）將每幾個cell組成一個block（例如3*3個cell/block），一個block內所有cell的特徵descriptor串聯起來便得到該block的HOG特徵descriptor。
（7）將圖像image內的所有block的HOG特徵descriptor串聯起來就可以得到該image（你要檢測的目標）的HOG特徵descriptor了。這個就是最終的可供分類使用的特徵
向量了。
接下來使用SVM等算法對HOG特徵向量進行訓練和預測就可以了。

目標檢測常用特徵類型提取

SQL優化-20231016

在Pytorch中使用Mask R-CNN進行實例分割

PyTorch中使用遷移訓練（Transfer Learning）進行圖像分類

一個卷積神經網絡(CNN)中包含的張量大小和參數個數的計算

基於Dlib的人臉識別系統

使用opencv進行疲勞監測

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結