特徵提取算法--Sift

SIFT(Scale-invariant feature transform)是一種檢測局部特徵的算法,它在空間尺度中對一副圖尋找極值點,並提取出其位置、尺度、旋轉不變量等描述子得到特徵並進行圖像特徵點匹配,用來偵測與描述影像中的局部性特徵。
它是基於物體上的一些局部特徵SIFT特徵是圖像的局部特徵,其對旋轉、尺度縮放、亮度變化保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩定性;使用 SIFT特徵描述對於部分物體遮蔽的偵測率也相當高,甚至只需要3個以上的SIFT物體特徵就足以計算出位置與方位。

參考網址http://blog.csdn.net/akunainiannian/article/details/44104763
參考網址http://www.cnblogs.com/linyunzju/archive/2011/06/14/2080951.html
參考網址http://www.cnblogs.com/cfantaisie/archive/2011/06/14/2080917.html
參考網址http://blog.csdn.net/abcjennifer/article/details/7639681

目標的自身狀態、場景所處的環境和成像器材的成像特性等因素影響圖像配準/目標識別跟蹤的性能。sift可以解決這些問題:
1. 目標的旋轉、縮放、平移(RST)
2. 圖像仿射/投影變換(視點viewpoint)
3. 光照影響(illumination)
4. 目標遮擋(occlusion)
5. 雜物場景(clutter)
6. 噪聲
SIFT在圖像的不變特徵提取方面擁有無與倫比的優勢,但並不完美,仍然存在:
1. 實時性不高。
2. 有時特徵點較少。
3. 對邊緣光滑的目標無法準確提取特徵點。
等缺點,如下圖7.1所示,對模糊的圖像和邊緣平滑的圖像,檢測出的特徵點過少,對圓更是無能爲力。近來不斷有人改進,其中最著名的有SURF和CSIFT。
這裏寫圖片描述
1).
SIFT算法的實質是在不同的尺度空間上查找關鍵點(特徵點),並計算出關鍵點的方向。SIFT所查找到的關鍵點是一些十分突出,不會因光照,仿射變換和噪音等因素而變化的點,如角點、邊緣點、暗區的亮點及亮區的暗點等。
Lowe將SIFT算法分解爲如下幾步:
1. 輸入圖像,建議做double(width*=2, height*=2, size*=4), 並高斯過濾進行平滑。
2. 由圖片size決定建幾個塔,每塔幾層圖像(一般3-5層)。0塔的第0層是原始圖像(或你double後的圖像),往上每一層是對其下一層進行Laplacian變換(高斯卷積,其中sigma值漸大,例如可以是sigma, k*sigma, k*k*sigma…),直觀上看來越往上圖片越模糊。塔間的圖片是降採樣關係,例如1塔的第0層可以由0塔的第3層down sample得到,然後進行與0塔類似的高斯卷積操作。
3. 構建DoG金字塔。DoG金字塔由上一步生成的Gauss金字塔計算得到,塔數相同,每塔層數少1,因爲DoG的每一層由Gauss的相鄰兩層相減得到。
4. 在DoG塔裏進行極值點檢測,並根據用戶預設的對比度閾值、主曲率閾值去除不合法特徵點。極值點檢測用的Non-Maximal Suppression,即在3*3*3個點中進行灰度值比較,最小或最大才過關。
5. 計算每個特徵點的尺度。注意塔間尺度關係,sigma*2.0^(octvs+intvl/intvls)
6. 計算每個特徵點的梯度模值和方向。用特徵點周圍一個矩陣區域(patch)內的點來描述該特徵點,用的直方圖進行模值統計並尋找主方向,主方向可以不止一個。
7. 最後要生成64D或128D的特徵描述符了。對齊主方向,計算方向直方圖2D數組,假如每個直方圖有8bin,那麼64D(2*2*8bin)或128D(4*4*8bin)。

2).構建尺度空間
SIFT算法是在不同的尺度空間上查找關鍵點,而尺度空間的獲取需要使用高斯模糊來實現,高斯卷積核是實現尺度變換的唯一變換核,並且是唯一的線性核。
高斯模糊是一種圖像濾波器,它使用正態分佈(高斯函數)計算模糊模板,並使用該模板與原圖像做卷積運算,達到模糊圖像的目的。
N維空間正態分佈方程爲:這裏寫圖片描述
其中,是正態分佈的標準差,值越大,圖像越模糊(平滑)。r爲模糊半徑,模糊半徑是指模板元素到模板中心的距離。如二維模板大小爲m*n,則模板上的元素(x,y)對應的高斯計算公式爲:
這裏寫圖片描述
理論上來講,圖像中每點的分佈都不爲零,這也就是說每個像素的計算都需要包含整幅圖像。在實際應用中,在計算高斯函數的離散近似時,在大概3σ距離之外的像素都可以看作不起作用,這些像素的計算也就可以忽略。通常,圖像處理程序只需要計算(6σ+1)x(6σ+1)的矩陣就可以保證相關像素影響。
根據σ的值,計算出高斯模板矩陣的大小(6σ+1)x(6σ+1),計算高斯模板矩陣的值,與原圖像做卷積,即可獲得原圖像的平滑(高斯模糊)圖像。爲了確保模板矩陣中的元素在[0,1]之間,需將模板矩陣歸一化。高斯模板是中心對稱的。
這裏寫圖片描述
使用二維的高斯模板達到了模糊圖像的目的,但是會因模板矩陣的關係而造成邊緣圖像缺失(2.3 b,c),越大,缺失像素越多,丟棄模板會造成黑邊(2.3 d)。更重要的是當變大時,高斯模板(高斯核)和卷積運算量將大幅度提高。根據高斯函數的可分離性,可對二維高斯模糊函數進行改進。
高斯函數的可分離性是指使用二維矩陣變換得到的效果也可以通過在水平方向進行一維高斯矩陣變換加上豎直方向的一維高斯矩陣變換得到。從計算的角度來看,這是一項有用的特性,因爲這樣只需要(nxMxN)+(mxMxN)次計算,而二維不可分的矩陣則需要(nxmxMxN)次計算,其中,m,n爲高斯矩陣的維數,M,N爲二維圖像的維數。
兩次一維的高斯卷積將消除二維高斯矩陣所產生的邊緣, 對用模板矩陣超出邊界的部將不做卷積計算,只在圖像之內的部分做卷積。
這裏寫圖片描述

尺度空間
尺度空間使用高斯金字塔表示。Tony Lindeberg指出尺度規範化的LoG(Laplacion of Gaussian)算子具有真正的尺度不變性,Lowe使用高斯差分金字塔近似LoG算子,在尺度空間檢測穩定的關鍵點。
尺度空間理論的基本思想是:在圖像信息處理模型中引入一個被視爲尺度的參數,通過連續變化尺度參數獲得多尺度下的尺度空間表示序列,對這些序列進行尺度空間主輪廓的提取,並以該主輪廓作爲一種特徵向量,實現邊緣、角點檢測和不同分辨率上的特徵提取等。
尺度空間方法將傳統的單尺度圖像信息處理技術納入尺度不斷變化的動態分析框架中,更容易獲取圖像的本質特徵。尺度空間中各尺度圖像的模糊程度逐漸變大,能夠模擬人在距離目標由近到遠時目標在視網膜上的形成過程。
尺度空間滿足視覺不變性。該不變性的視覺解釋如下:當我們用眼睛觀察物體時,一方面當物體所處背景的光照條件變化時,視網膜感知圖像的亮度水平和對比度是不同的,因此要求尺度空間算子對圖像的分析不受圖像的灰度水平和對比度變化的影響,即滿足灰度不變性和對比度不變性。另一方面,相對於某一固定座標系,當觀察者和物體之間的相對位置變化時,視網膜所感知的圖像的位置、大小、角度和形狀是不同的,因此要求尺度空間算子對圖像的分析和圖像的位置、大小、角度以及仿射變換無關,即滿足平移不變性、尺度不變性、歐幾里德不變性以及仿射不變性。
一個圖像的尺度空間,定義爲一個變化尺度的高斯函數與原圖像的卷積。
這裏是卷積運算
這裏是卷積運算,(x, y)代表圖像的像素位置。σ是尺度空間因子,值越小表示圖像被平滑的越少,相應的尺度也就越小。大尺度對應於圖像的概貌特徵,小尺度對應於圖像的細節特徵。

高斯金字塔的構建
尺度空間在實現時使用高斯金字塔表示,高斯金字塔的構建分爲兩部分:
1. 對圖像做不同尺度的高斯模糊;
2. 對圖像做降採樣(隔點採樣)。
這裏寫圖片描述

圖像的金字塔模型是指,將原始圖像不斷降階採樣,得到一系列大小不一的圖像,由大到小,從下到上構成的塔狀模型。原圖像爲金子塔的第一層,每次降採樣所得到的新圖像爲金字塔的一層(每層一張圖像),每個金字塔共n層。金字塔的層數根據圖像的原始大小和塔頂圖像的大小共同決定,其計算公式如下:
這裏寫圖片描述
其中M,N爲原圖像的大小,t爲塔頂圖像的最小維數的對數值。如,對於大小爲512*512的圖像,金字塔上各層圖像的大小如表3.1所示,當塔頂圖像爲4*4時,n=7,當塔頂圖像爲2*2時,n=8。
這裏寫圖片描述
爲了讓尺度體現其連續性,高斯金字塔在簡單降採樣的基礎上加上了高斯濾波。將圖像金字塔每層的一張圖像使用不同參數做高斯模糊,使得金字塔的每層含有多張高斯模糊圖像,將金字塔每層多張圖像合稱爲一組(Octave),金字塔每層只有一組圖像,組數和金字塔層數相等,每組含有多張(也叫層Interval)圖像。另外,降採樣時,高斯金字塔上一組圖像的初始圖像(底層圖像)是由前一組圖像的倒數第三張圖像隔點採樣得到的。
爲了在每組中檢測S個尺度的極值點,則DOG金字塔每組需S+2層圖像,而DOG金字塔由高斯金字塔相鄰兩層相減得到,則高斯金字塔每組需S+3層圖像,實際計算時S在3到5之間。

高斯差分金字塔
高斯差分函數的極大值和極小值同其它的特徵提取函數,例如:梯度,Hessian或Harris角特徵比較,能夠產生最穩定的圖像特徵。使用更高效的高斯差分算子進行極值檢測。爲了有效的在尺度空間檢測到穩定的關鍵點,提出了高斯差分尺度空間(DOG scale-space)。利用不同尺度的高斯差分核與圖像卷積生成。
這裏寫圖片描述
在實際計算時,使用高斯金字塔每組中相鄰上下兩層圖像相減,得到高斯差分圖像,進行極值檢測。
這裏寫圖片描述
這裏寫圖片描述
尺度空間的所有取值,i爲octave的塔數(第幾個塔),s爲每塔層數

構建尺度空間需確定的參數
σ—尺度空間座標
O—組(octave)數
S— 組內層數
在上述尺度空間中,O和S, σ的關係如下:
這裏寫圖片描述
其中σ0是基準層尺度,o爲組octave的索引,s爲組內層的索引。關鍵點的尺度座標σ就是按關鍵點所在的組和組內的層計算得到。
將第0層的初始尺度定爲1.6(最模糊),圖片的初始尺度定爲0.5(最清晰)。在檢測極值點前對原始圖像的高斯平滑以致圖像丟失高頻信息,所以 Lowe 建議在建立尺度空間前首先對原始圖像長寬擴展一倍來生成第-1組,以保留原始圖像信息,增加特徵點數量。尺度越大圖像越模糊。 我們假定初始的輸入圖像爲了抗擊混淆現象,已經對其進行σ-1=0.5的高斯模糊,如果輸入圖像的尺寸用雙線性插值擴大一倍,那麼相當於σ-1=1。

k爲組內總層數的倒數,即這裏寫圖片描述
在構建高斯金字塔時,組內每層的尺度座標按如下公式計算:
這裏寫圖片描述
其中σ0初始尺度,lowe取σ0=1.6 ,S=3; s爲組內的層索引,不同組相同層的組內尺度座標σ(s)相同,組內下一層圖像是由前一層圖像按σ(s)進行高斯模糊所得。
上式用於一次生成組內不同尺度的高斯圖像,而在計算組內某一層圖像的尺度時,直接使用如下公式進行計算:
這裏寫圖片描述
該組內尺度在方向分配和特徵描述時確定採樣窗口的大小,就是確定那個高斯函數的σ值。
則構成高斯差分金字塔的公式:
這裏寫圖片描述
對於一幅圖像I,建立其在不同尺度(scale)的圖像,也稱爲組(octave),這是爲了scale-invariant,也就是在任何尺度都能夠有對應的特徵點,第一個組的scale爲原圖大小,後面每個octave爲上一個octave降採樣的結果,即原圖的1/4(長寬分別減半),構成下一個組(高一組金字塔)。

3). LoG近似DoG找到關鍵點<檢測DOG尺度空間極值點>
爲了尋找尺度空間的極值點,每一個採樣點要和它所有的相鄰點比較,看其是否比它的圖像域和尺度域的相鄰點大或者小。如圖所示,中間的檢測點和它同尺度的8個相鄰點和上下相鄰尺度對應的9×2個點共26個點比較,以確保在尺度空間和二維圖像空間都檢測到極值點。 一個點如果在DOG尺度空間本層以及上下兩層的26個領域中是最大或最小值時,就認爲該點是圖像在該尺度下的一個特徵點,如圖所示。
這裏寫圖片描述
同一組中的相鄰尺度(由於k的取值關係,肯定是上下層)之間進行尋找
這裏寫圖片描述
爲了在每組中檢測S個尺度的極值點滿足尺度變化的連續性,則DOG金字塔每組需S+2層圖像,而DOG金字塔由高斯金字塔相鄰兩層相減得到,則高斯金字塔每組需S+3層圖像,實際計算時S在3到5之間。當然這樣產生的極值點並不全都是穩定的特徵點,因爲某些極值點響應較弱,而且DOG算子會產生較強的邊緣響應。
這裏寫圖片描述
使用Difference of Gaussian圖像的極大極小值近似尋找特徵點.DOG算子計算簡單,是尺度歸一化的LoG算子的近似,有關DOG尋找特徵點的介紹及方法詳見http://blog.csdn.net/abcjennifer/article/details/7639488,極值點檢測用的Non-Maximal Suppression。

除去不好的特徵點
這一步本質上要去掉DoG局部曲率非常不對稱的像素。以上方法檢測到的極值點是離散空間的極值點,通過擬和三維二次函數以精確確定關鍵點的位置和尺度(達到亞像素精度),同時去除低對比度的關鍵點和不穩定的邊緣響應點(因爲DoG算子會產生較強的邊緣響應),以增強匹配穩定性、提高抗噪聲能力,在這裏使用近似Harris Corner檢測器。
離散空間的極值點並不是真正的極值點,圖4.1顯示了二維函數離散空間得到的極值點與連續空間極值點的差別。利用已知的離散空間點插值得到的連續空間極值點的方法叫做子像素插值(Sub-pixel Interpolation)。
這裏寫圖片描述
爲了提高關鍵點的穩定性,需要對尺度空間DoG函數進行曲線擬合。利用DoG函數在尺度空間的Taylor展開式(擬合函數)爲:
這裏寫圖片描述
其中這裏寫圖片描述,。求導並讓方程等於零,可以得到極值點的偏移量爲:
這裏寫圖片描述
在已經檢測到的特徵點中,要去掉低對比度的特徵點和不穩定的邊緣響應點。去除低對比度的點:把公式(2)代入公式(1),即在DoG Space的極值點處D(x)取值,只取前兩項可得:
這裏寫圖片描述
其中這裏寫圖片描述,代表相對插值中心的偏移量,當它在任一維度上的偏移量大於0.5時(即x或y或),意味着插值中心已經偏移到它的鄰近點上,所以必須改變當前關鍵點的位置。同時在新的位置上反覆插值直到收斂;也有可能超出所設定的迭代次數或者超出圖像邊界的範圍,此時這樣的點應該刪除,在Lowe中進行了5次迭代。另外,這裏寫圖片描述過小的點易受噪聲的干擾而變得不穩定,所以將小於某個經驗值(Lowe論文中使用0.03,Rob Hess等人實現時使用0.04/S)的極值點刪除。同時,在此過程中獲取特徵點的精確位置(原位置加上擬合的偏移量)以及尺度(這裏寫圖片描述)。

邊緣響應的去除
一個定義不好的高斯差分算子的極值在橫跨邊緣的地方有較大的主曲率,而在垂直邊緣的方向有較小的主曲率。主曲率通過一個2×2 的Hessian矩陣H求出:
這裏寫圖片描述
D的主曲率和H的特徵值成正比,H的特徵值α和β代表x和y方向的梯度,令α爲較大特徵值,β爲較小的特徵值,則
這裏寫圖片描述
第一個公式表示矩陣H對角線元素之和,第二個表示矩陣H的行列式。
這裏寫圖片描述
這裏寫圖片描述
(r + 1)2/r的值在兩個特徵值相等的時候最小,隨着r的增大而增大,即在某一個方向的梯度值越大,而在另一個方向的梯度值越小,而邊緣恰恰就是這種情況。所以爲了剔除邊緣響應點,需要讓該比值小於一定的閾值,因此,爲了檢測主曲率是否在某域值r下,只需檢測
這裏寫圖片描述
if (α+β)/ αβ> (r+1)2/r, throw it out. 在Lowe的文章中,取r=10。
這裏寫圖片描述

給特徵點賦值一個128維方向參數
確定了每幅圖中的特徵點,爲每個特徵點計算一個方向,依照這個方向做進一步的計算, 利用關鍵點鄰域像素的梯度方向分佈特性爲每個關鍵點指定方向參數,使算子具備旋轉不變性。需要利用圖像的局部特徵爲給每一個關鍵點分配一個基準方向。使用圖像梯度的方法求取局部結構的穩定方向。對於在DOG金字塔中檢測出的關鍵點點,採集其所在高斯金字塔圖像3σ鄰域窗口內像素的梯度和方向分佈特徵。梯度的模值和方向如下:
這裏寫圖片描述
L爲關鍵點所在的尺度空間值,按Lowe的建議,梯度的模值m(x,y)按這裏寫圖片描述 的高斯分佈加成,按尺度採樣的3σ原則,鄰域窗口半徑爲這裏寫圖片描述
在完成關鍵點的梯度計算後,使用直方圖統計鄰域內像素的梯度和方向。梯度直方圖將0~360度的方向範圍分爲36個柱(bins),其中每柱10度。如圖5.1所示,直方圖的峯值方向代表了關鍵點的主方向,(爲簡化,圖中只畫了八個方向的直方圖)。隨着距中心點越遠的領域其對直方圖的貢獻也響應減小.Lowe論文中還提到要使用高斯函數對直方圖進行平滑,減少突變的影響。
這裏寫圖片描述
方向直方圖的峯值則代表了該特徵點處鄰域梯度的方向,以直方圖中最大值作爲該關鍵點的主方向。爲了增強匹配的魯棒性,只保留峯值大於主方向峯值80%的方向作爲該關鍵點的輔方向。因此,對於同一梯度值的多個峯值的關鍵點位置,在相同位置和尺度將會有多個關鍵點被創建但方向不同。僅有15%的關鍵點被賦予多個方向,但可以明顯的提高關鍵點匹配的穩定性。實際編程實現中,就是把該關鍵點複製成多份關鍵點,並將方向值分別賦給這些複製後的關鍵點,並且,離散的梯度方向直方圖要進行插值擬合處理,來求得更精確的方向角度值,檢測結果如圖5.2所示。
這裏寫圖片描述
至此,將檢測出的含有位置、尺度和方向的關鍵點即是該圖像的SIFT特徵點。
通過對關鍵點周圍圖像區域分塊,計算塊內梯度直方圖,生成具有獨特性的向量,這個向量是該區域圖像信息的一種抽象,具有唯一性。

4)關鍵點特徵描述
接下來就是爲每個關鍵點建立一個描述符,用一組向量將這個關鍵點描述出來,使其不隨各種變化而改變,比如光照變化、視角變化等等。這個描述子不但包括關鍵點,也包含關鍵點周圍對其有貢獻的像素點,並且描述符應該有較高的獨特性,以便於提高特徵點正確匹配的概率。
SIFT描述子是關鍵點鄰域高斯圖像梯度統計結果的一種表示。通過對關鍵點周圍圖像區域分塊,計算塊內梯度直方圖,生成具有獨特性的向量,這個向量是該區域圖像信息的一種抽象,具有唯一性。
Lowe建議描述子使用在關鍵點尺度空間內4*4的窗口中計算的8個方向的梯度信息,共4*4*8=128維向量表徵。表示步驟如下:

  1. 確定計算描述子所需的圖像區域
    特徵描述子與特徵點所在的尺度有關,因此,對梯度的求取應在特徵點對應的高斯圖像上進行。將關鍵點附近的鄰域劃分爲d*d(Lowe建議d=4)個子區域,每個子區域做爲一個種子點,每個種子點有8個方向。每個子區域的大小與關鍵點方向分配時相同,即每個區域有這裏寫圖片描述 個子像素,爲每個子區域分配邊長爲這裏寫圖片描述的矩形區域進行採樣(個子像素實際用邊長爲這裏寫圖片描述的矩形區域即可包含,但由式這裏寫圖片描述這裏寫圖片描述不大,爲了簡化計算取其邊長爲這裏寫圖片描述並且採樣點宜多不宜少)。考慮到實際計算時,需要採用雙線性插值,所需圖像窗口邊長爲這裏寫圖片描述 。在考慮到旋轉因素(方便下一步將座標軸旋轉到關鍵點的方向),如下圖所示,實際計算所需的圖像區域半徑爲:
    這裏寫圖片描述計算結果四捨五入取整。
    這裏寫圖片描述

  2. 將座標軸旋轉爲關鍵點的方向,以確保旋轉不變性,如6.2所示。
    這裏寫圖片描述
    旋轉後鄰域內採樣點的新座標爲:這裏寫圖片描述

  3. 將鄰域內的採樣點分配到對應的子區域內,將子區域內的梯度值分配到8個方向上,計算其權值。
    旋轉後的採樣點座標在半徑爲radius的圓內被分配到這裏寫圖片描述的子區域,計算影響子區域的採樣點的梯度和方向,分配到8個方向上。
    旋轉後的採樣點這裏寫圖片描述落在子區域的下標爲這裏寫圖片描述
    Lowe建議子區域的像素的梯度大小按的高斯加權計算,即
    這裏寫圖片描述
    其中a,b爲關鍵點在高斯金字塔圖像中的位置座標。
  4. 插值計算每個種子點八個方向的梯度。
    這裏寫圖片描述
    所得采樣點在子區域中的下標這裏寫圖片描述(圖中藍色窗口內紅色點)線性插值,計算其對每個種子點的貢獻。如圖中的紅色點,落在第0行和第1行之間,對這兩行都有貢獻。對第0行第3列種子點的貢獻因子爲dr,對第1行第3列的貢獻因子爲1-dr,同理,對鄰近兩列的貢獻因子爲dc和1-dc,對鄰近兩個方向的貢獻因子爲do和1-do。則最終累加在每個方向上的梯度大小爲:
    這裏寫圖片描述
    其中k,m,n爲0或爲1。
    這裏寫圖片描述
    圖左部分的中央爲當前關鍵點的位置,每個小格代表關鍵點鄰域所在尺度空間的一個像素,利用公式求得每個像素的梯度幅值與梯度方向,箭頭方向代表該像素的梯度方向,箭頭長度代表梯度模值,然後用高斯窗口對其進行加權運算。
    圖中藍色的圈代表高斯加權的範圍(越靠近關鍵點的像素梯度方向信息貢獻越大)。然後在每4×4的小塊上計算8個方向的梯度方向直方圖,繪製每個梯度方向的累加值,即可形成一個種子點,如圖右部分示。此圖中一個關鍵點由2×2共4個種子點組成,每個種子點有8個方向向量信息。這種鄰域方向性信息聯合的思想增強了算法抗噪聲的能力,同時對於含有定位誤差的特徵匹配也提供了較好的容錯性。
    這裏寫圖片描述
    計算keypoint周圍的16*16的window中每一個像素的梯度,而且使用高斯下降函數降低遠離中心的權重。我們將特徵點周圍16*16的窗口分解爲16個4*4的子窗口。在每個4*4的子窗口中,計算出梯度的大小和方向,並用一個8個bin的直方圖來統計子窗口的平均方向,梯度方向在0-44度範圍的像素點被放到第一個bin中,45-89度範圍的像素點被放到下一個bin中,依此類推。同樣加入到bin中的量依賴於該像素點梯度的大小。與之前不同的是,加入的量不僅與像素點的梯度大小相關,而且還依賴離特徵點的距離,這樣遠離特徵點的像素點會加入較少的量到直方圖中。這通過一個高斯加權函數來實現,這個函數生成一個加權值(像一個二維的鐘形曲線),用它乘以16*16的窗口中每個像素點的梯度大小,得到加權後的梯度大小,距離特徵點越遠,要加入直方圖的像素點的梯度大小越小。
    這樣每個4*4的子窗口都對應一個8 bin的直方圖,且直方圖中加入的值是像素的用高斯加權後的梯度大小,而特徵點周圍16*16的窗口中包含16個4*4的子窗口,共有16*8=128個數,然後將這128個數組成的向量進行單位化,單位化後的128維向量就是SIFT的描述子。

  5. 如上統計的4*4*8=128個梯度信息即爲該關鍵點的特徵向量。特徵向量形成後,爲了去除光照變化的影響,需要對它們進行歸一化處理,對於圖像灰度值整體漂移,圖像各點的梯度是鄰域像素相減得到,所以也能去除。得到的描述子向量爲這裏寫圖片描述,歸一化後的特徵向量爲這裏寫圖片描述
    這裏寫圖片描述

  6. 描述子向量門限。對於一些非線性的光照變化,SIFT並不具備不變性,但由於這類變化影響的主要是梯度的幅值變化,對梯度的方向影響較小,因此作者通過限制梯度幅值的值來減少這類變化造成的影響。相機飽和度變化對造成某些方向的梯度值過大,而對方向的影響微弱。因此設置門限值(向量歸一化後,一般取0.2)截斷較大的梯度值。然後,再進行一次歸一化處理,提高特徵的鑑別性。

  7. 按特徵點的尺度對特徵描述向量進行排序。
    至此,SIFT特徵描述向量生成。

5)根據SIFT進行Match
生成了A、B兩幅圖的描述子,(分別是k1*128維和k2*128維),就將兩圖中各個scale(所有scale)的描述子進行匹配,匹配上128維即可表示兩個特徵點match上了。

實際計算過程中,爲了增強匹配的穩健性,Lowe建議對每個關鍵點使用4×4共16個種子點來描述,這樣對於一個關鍵點就可以產生128個數據,即最終形成128維的SIFT特徵向量。此時SIFT特徵向量已經去除了尺度變化、旋轉等幾何變形因素的影響,再繼續將特徵向量的長度歸一化,則可以進一步去除光照變化的影響。 當兩幅圖像的SIFT特徵向量生成後,下一步我們採用關鍵點特徵向量的歐式距離來作爲兩幅圖像中關鍵點的相似性判定度量。取圖像1中的某個關鍵點,並找出其與圖像2中歐式距離最近的前兩個關鍵點,在這兩個關鍵點中,如果最近的距離除以次近的距離少於某個比例閾值,則接受這一對匹配點。降低這個比例閾值,SIFT匹配點數目會減少,但更加穩定。爲了排除因爲圖像遮擋和背景混亂而產生的無匹配關係的關鍵點,Lowe提出了比較最近鄰距離與次近鄰距離的方法,距離比率ratio小於某個閾值的認爲是正確匹配。因爲對於錯誤匹配,由於特徵空間的高維性,相似的距離可能有大量其他的錯誤匹配,從而它的ratio值比較高。Lowe推薦ratio的閾值爲0.8。但作者對大量任意存在尺度、旋轉和亮度變化的兩幅圖片進行匹配,結果表明ratio取值在0. 4~0. 6之間最佳,小於0. 4的很少有匹配點,大於0. 6的則存在大量錯誤匹配點。(如果這個地方你要改進,最好給出一個匹配率和ration之間的關係圖,這樣纔有說服力)作者建議ratio的取值原則如下:
ratio=0. 4 對於準確度要求高的匹配;
ratio=0. 6 對於匹配點數目要求比較多的匹配;
ratio=0. 5 一般情況下。
也可按如下原則:當最近鄰距離<200時ratio=0. 6,反之ratio=0. 4。ratio的取值策略能排分錯誤匹配點。

6)PCA-SIFT算法
  •PCA-SIFT與標準SIFT有相同的亞像素位置,尺度和主方向。但在第4步計算描述子的設計,採用的主成分分析的技術。
  •下面介紹一下其特徵描述子計算的部分:
  •用特徵點周圍的41×41的像斑計算它的主元,並用PCA-SIFT將原來的2×39×39維的向量降成20維,以達到更精確的表示方式。
  •它的主要步驟爲,對每一個關鍵點:在關鍵點周圍提取一個41×41的像斑於給定的尺度,旋轉到它的主方向 ;計算39×39水平和垂直的梯度,形成一個大小爲3042的矢量;用預先計算好的投影矩陣n×3042與此矢量相乘;這樣生成一個大小爲n的PCA-SIFT描述子。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章