SIFT特徵提取分析

本文轉載至：http://blog.csdn.net/abcjennifer/article/details/7639681

SIFT（Scale-invariant feature transform）是一種檢測局部特徵的算法，該算法通過求一幅圖中的特徵點（interest points,or corner points）及其有關scale 和 orientation 的描述子得到特徵並進行圖像特徵點匹配，獲得了良好效果，詳細解析如下：

算法描述

SIFT特徵不只具有尺度不變性，即使改變旋轉角度，圖像亮度或拍攝視角，仍然能夠得到好的檢測效果。整個算法分爲以下幾個部分：

1. 構建尺度空間

這是一個初始化操作，尺度空間理論目的是模擬圖像數據的多尺度特徵。

高斯卷積核是實現尺度變換的唯一線性核，於是一副二維圖像的尺度空間定義爲：

其中 G(x,y,σ) 是尺度可變高斯函數

（x，y）是空間座標，是尺度座標。σ大小決定圖像的平滑程度，大尺度對應圖像的概貌特徵，小尺度對應圖像的細節特徵。大的σ值對應粗糙尺度(低分辨率)，反之，對應精細尺度(高分辨率)。爲了有效的在尺度空間檢測到穩定的關鍵點，提出了高斯差分尺度空間（DOG scale-space）。利用不同尺度的高斯差分核與圖像卷積生成。

下圖所示不同σ下圖像尺度空間：

關於尺度空間的理解說明：2kσ中的2是必須的，尺度空間是連續的。在 Lowe的論文中，將第0層的初始尺度定爲1.6（最模糊），圖片的初始尺度定爲0.5（最清晰）. 在檢測極值點前對原始圖像的高斯平滑以致圖像丟失高頻信息，所以 Lowe 建議在建立尺度空間前首先對原始圖像長寬擴展一倍，以保留原始圖像信息，增加特徵點數量。尺度越大圖像越模糊。

圖像金字塔的建立：對於一幅圖像I,建立其在不同尺度(scale)的圖像，也成爲子八度（octave），這是爲了scale-invariant，也就是在任何尺度都能夠有對應的特徵點，第一個子八度的scale爲原圖大小，後面每個octave爲上一個octave降採樣的結果，即原圖的1/4（長寬分別減半），構成下一個子八度（高一層金字塔）。

尺度空間的所有取值，i爲octave的塔數（第幾個塔），s爲每塔層數

由圖片size決定建幾個塔，每塔幾層圖像(S一般爲3-5層)。0塔的第0層是原始圖像(或你double後的圖像)，往上每一層是對其下一層進行Laplacian變換（高斯卷積，其中σ值漸大，例如可以是σ, k*σ, k*k*σ…），直觀上看來越往上圖片越模糊。塔間的圖片是降採樣關係，例如1塔的第0層可以由0塔的第3層down sample得到，然後進行與0塔類似的高斯卷積操作。

2. LoG近似DoG找到關鍵點<檢測DOG尺度空間極值點>

爲了尋找尺度空間的極值點，每一個採樣點要和它所有的相鄰點比較，看其是否比它的圖像域和尺度域的相鄰點大或者小。如圖所示，中間的檢測點和它同尺度的8個相鄰點和上下相鄰尺度對應的9×2個點共26個點比較，以確保在尺度空間和二維圖像空間都檢測到極值點。一個點如果在DOG尺度空間本層以及上下兩層的26個領域中是最大或最小值時，就認爲該點是圖像在該尺度下的一個特徵點,如圖所示。

同一組中的相鄰尺度（由於k的取值關係，肯定是上下層）之間進行尋找

s=3的情況

在極值比較的過程中，每一組圖像的首末兩層是無法進行極值比較的，爲了滿足尺度變化的連續性（下面有詳解）

，我們在每一組圖像的頂層繼續用高斯模糊生成了 3 幅圖像，高斯金字塔有每組S+3層圖像。DOG金字塔每組有S+2層圖像.

==========================================

這裏有的童鞋不理解什麼叫“爲了滿足尺度變化的連續性”，現在做仔細闡述：

假設s=3，也就是每個塔裏有3層，則k=2^1/s=2^1/3，那麼按照上圖可得Gauss Space和DoG space 分別有3個（s個）和2個（s-1個）分量，在DoG space中，1st-octave兩項分別是σ,kσ; 2nd-octave兩項分別是2σ,2kσ;由於無法比較極值，我們必須在高斯空間繼續添加高斯模糊項，使得形成σ,kσ,k²σ,k³σ,k⁴σ這樣就可以選擇DoG space中的中間三項kσ,k²σ,k³σ（只有左右都有纔能有極值），那麼下一octave中（由上一層降採樣獲得）所得三項即爲2kσ,2k²σ,2k³σ，其首項2kσ=2^4/3。剛好與上一octave末項k³σ=2^3/3尺度變化連續起來，所以每次要在Gaussian space添加3項，每組（塔）共S+3層圖像，相應的DoG金字塔有S+2層圖像。

==========================================

使用Laplacian of Gaussian能夠很好地找到找到圖像中的興趣點，但是需要大量的計算量，所以使用Difference of Gaussian圖像的極大極小值近似尋找特徵點.DOG算子計算簡單，是尺度歸一化的LoG算子的近似,有關DOG尋找特徵點的介紹及方法詳見http://blog.csdn.net/abcjennifer/article/details/7639488，極值點檢測用的Non-Maximal Suppression。

3. 除去不好的特徵點

通過擬和三維二次函數以精確確定關鍵點的位置和尺度（達到亞像素精度），同時去除低對比度的關鍵點和不穩定的邊緣響應點(因爲DoG算子會產生較強的邊緣響應)，以增強匹配穩定性、提高抗噪聲能力，在這裏使用近似Harris Corner檢測器。

①空間尺度函數泰勒展開式如下：，對上式求導,並令其爲0,得到精確的位置, 得

②在已經檢測到的特徵點中,要去掉低對比度的特徵點和不穩定的邊緣響應點。去除低對比度的點：把公式(2)代入公式(1)，即在DoG Space的極值點處D(x)取值，只取前兩項可得：

若，該特徵點就保留下來，否則丟棄。

③邊緣響應的去除
一個定義不好的高斯差分算子的極值在橫跨邊緣的地方有較大的主曲率，而在垂直邊緣的方向有較小的主曲率。主曲率通過一個2×2 的Hessian矩陣H求出:

導數由採樣點相鄰差估計得到。

D的主曲率和H的特徵值成正比，令α爲較大特徵值，β爲較小的特徵值，則

令α=γβ，則

(r + 1)²/r的值在兩個特徵值相等的時候最小，隨着r的增大而增大，因此，爲了檢測主曲率是否在某域值r下，只需檢測

if (α+β)/ αβ> (r+1)²/r, throw it out. 在Lowe的文章中，取r＝10。

4. 給特徵點賦值一個128維方向參數

上一步中確定了每幅圖中的特徵點，爲每個特徵點計算一個方向，依照這個方向做進一步的計算，利用關鍵點鄰域像素的梯度方向分佈特性爲每個關鍵點指定方向參數，使算子具備旋轉不變性。

爲(x,y)處梯度的模值和方向公式。其中L所用的尺度爲每個關鍵點各自所在的尺度。至此，圖像的關鍵點已經檢測完畢，每個關鍵點有三個信息：位置，所處尺度、方向，由此可以確定一個SIFT特徵區域。

梯度直方圖的範圍是0～360度，其中每10度一個柱，總共36個柱。隨着距

中心點越遠的領域其對直方圖的貢獻也響應減小.Lowe論文中還提到要使用高斯函數對直方圖進行平滑，減少突變的影響。

在實際計算時，我們在以關鍵點爲中心的鄰域窗口內採樣，並用直方圖統計鄰域像素的梯度方向。梯度直方圖的範圍是0～360度，其中每45度一個柱，總共8個柱, 或者每10度一個柱，總共36個柱。Lowe論文中還提到要使用高斯函數對直方圖進行平滑，減少突變的影響。直方圖的峯值則代表了該關鍵點處鄰域梯度的主方向，即作爲該關鍵點的方向。

直方圖中的峯值就是主方向，其他的達到最大值80%的方向可作爲輔助方向

由梯度方向直方圖確定主梯度方向

該步中將建立所有scale中特徵點的描述子（128維）

Identify peak and assign orientation and sum of magnitude to key point.

The user may choose a threshold to exclude key points based on their assigned sum of magnitudes.

關鍵點描述子的生成步驟

通過對關鍵點周圍圖像區域分塊，計算塊內梯度直方圖，生成具有獨特性的向量，這個向量是該區域圖像信息的一種抽象，具有唯一性。

5. 關鍵點描述子的生成

首先將座標軸旋轉爲關鍵點的方向，以確保旋轉不變性。以關鍵點爲中心取8×8的窗口。

Figure.16*16的圖中其中1/4的特徵點梯度方向及scale，右圖爲其加權到8個主方向後的效果。

圖左部分的中央爲當前關鍵點的位置，每個小格代表關鍵點鄰域所在尺度空間的一個像素，利用公式求得每個像素的梯度幅值與梯度方向，箭頭方向代表該像素的梯度方向，箭頭長度代表梯度模值，然後用高斯窗口對其進行加權運算。

圖中藍色的圈代表高斯加權的範圍（越靠近關鍵點的像素梯度方向信息貢獻越大）。然後在每4×4的小塊上計算8個方向的梯度方向直方圖，繪製每個梯度方向的累加值，即可形成一個種子點，如圖右部分示。此圖中一個關鍵點由2×2共4個種子點組成，每個種子點有8個方向向量信息。這種鄰域方向性信息聯合的思想增強了算法抗噪聲的能力，同時對於含有定位誤差的特徵匹配也提供了較好的容錯性。

計算keypoint周圍的16*16的window中每一個像素的梯度，而且使用高斯下降函數降低遠離中心的權重。

在每個4*4的1/16象限中，通過加權梯度值加到直方圖8個方向區間中的一個，計算出一個梯度方向直方圖。

這樣就可以對每個feature形成一個4*4*8=128維的描述子，每一維都可以表示4*4個格子中一個的scale/orientation. 將這個向量歸一化之後，就進一步去除了光照的影響。

5. 根據SIFT進行Match

生成了A、B兩幅圖的描述子，（分別是k1*128維和k2*128維），就將兩圖中各個scale（所有scale）的描述子進行匹配，匹配上128維即可表示兩個特徵點match上了。

實際計算過程中，爲了增強匹配的穩健性，Lowe建議對每個關鍵點使用4×4共16個種子點來描述，這樣對於一個關鍵點就可以產生128個數據，即最終形成128維的SIFT特徵向量。此時SIFT特徵向量已經去除了尺度變化、旋轉等幾何變形因素的影響，再繼續將特徵向量的長度歸一化，則可以進一步去除光照變化的影響。當兩幅圖像的SIFT特徵向量生成後，下一步我們採用關鍵點特徵向量的歐式距離來作爲兩幅圖像中關鍵點的相似性判定度量。取圖像1中的某個關鍵點，並找出其與圖像2中歐式距離最近的前兩個關鍵點，在這兩個關鍵點中，如果最近的距離除以次近的距離少於某個比例閾值，則接受這一對匹配點。降低這個比例閾值，SIFT匹配點數目會減少，但更加穩定。爲了排除因爲圖像遮擋和背景混亂而產生的無匹配關係的關鍵點,Lowe提出了比較最近鄰距離與次近鄰距離的方法,距離比率ratio小於某個閾值的認爲是正確匹配。因爲對於錯誤匹配,由於特徵空間的高維性,相似的距離可能有大量其他的錯誤匹配,從而它的ratio值比較高。Lowe推薦ratio的閾值爲0.8。但作者對大量任意存在尺度、旋轉和亮度變化的兩幅圖片進行匹配，結果表明ratio取值在0. 4~0. 6之間最佳，小於0. 4的很少有匹配點，大於0. 6的則存在大量錯誤匹配點。(如果這個地方你要改進，最好給出一個匹配率和ration之間的關係圖，這樣纔有說服力)作者建議ratio的取值原則如下:

ratio=0. 4　對於準確度要求高的匹配；
ratio=0. 6　對於匹配點數目要求比較多的匹配；
ratio=0. 5　一般情況下。
也可按如下原則:當最近鄰距離<200時ratio=0. 6，反之ratio=0. 4。ratio的取值策略能排分錯誤匹配點。

當兩幅圖像的SIFT特徵向量生成後，下一步我們採用關鍵點特徵向量的歐式距離來作爲兩幅圖像中關鍵點的相似性判定度量。取圖像1中的某個關鍵點，並找出其與圖像2中歐式距離最近的前兩個關鍵點，在這兩個關鍵點中，如果最近的距離除以次近的距離少於某個比例閾值，則接受這一對匹配點。降低這個比例閾值，SIFT匹配點數目會減少，但更加穩定。

實驗結果：