SIFT算法學習心得

這篇文章主要介紹 SIFT 算法。希望通過對 SIFT 算法的總結來更加深入地瞭解“尺度不變特徵變換”,除此之外,也加深來對 SURF 算法的理解。
附件:SIFT—Scale Invariant Feature Transform

1 SIFT 發展歷程及主要思想
SIFT算法由D.G.Lowe 1999年提出,2004年完善總結。後來Y.Ke將其描述子部分用PCA代替直方圖的方式,對其進行改進。是一種提取局部特徵的算法,在尺度空間尋找極值點,提取位置,尺度,旋轉不變量。
2 SIFT算法的主要特點
a) SIFT特徵是圖像的局部特徵,其對旋轉、尺度縮放、亮度變化保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩定性;
b) 獨特性(Distinctiveness)好,信息量豐富,適用於在海量特徵數據庫中進行快速、準確的匹配;
c) 多量性,即使少數的幾個物體也可以產生大量SIFT特徵向量;
d) 高速性,經優化的SIFT匹配算法甚至可以達到實時的要求;
e) 可擴展性,可以很方便的與其他形式的特徵向量進行聯合。
3 SIFT算法步驟:
1) 檢測尺度空間極值點;
2) 精確定位極值點;
3) 爲每個關鍵點指定方向參數;
4) 關鍵點描述子的生成
4 SIFT算法詳細
▲尺度空間的生成
尺度空間理論目的是模擬圖像數據的多尺度特徵。高斯卷積核是實現尺度變換的唯一線性核,於是一副二維圖像的尺度空間定義爲: 

其中    是尺度可變高斯函數 , 
(x,y)是空間座標,是尺度座標。大小決定圖像的平滑程度,大尺度對應圖像的概貌特徵,小尺度對應圖像的細節特徵。大的值對應粗糙尺度(低分辨率),反之,對應精細尺度(高分辨率)。爲了有效的在尺度空間檢測到穩定的關鍵點,提出了高斯差分尺度空間(DOG scale-space)。利用不同尺度的高斯差分核與圖像卷積生成。
DOG算子計算簡單,是尺度歸一化的LoG算子的近似。
圖像金字塔的構建:圖像金字塔共O組,每組有S層,下一組的圖像由上一組圖像降採樣得到。

▲空間極值點檢測
爲了尋找尺度空間的極值點,每一個採樣點要和它所有的相鄰點比較,看其是否比它的圖像域和尺度域的相鄰點大或者小。如圖3所示,中間的檢測點和它同尺度的8個相鄰點和上下相鄰尺度對應的9×2個點共26個點比較,以確保在尺度空間和二維圖像空間都檢測到極值點。 一個點如果在DOG尺度空間本層以及上下兩層的26個領域中是最大或最小值時,就認爲該點是圖像在該尺度下的一個特徵點,如圖所示。

▲精確確定極值點位置
通過擬和三維二次函數以精確確定關鍵點的位置和尺度(達到亞像素精度),同時去除低對比度的關鍵點和不穩定的邊緣響應點(因爲DoG算子會產生較強的邊緣響應),以增強匹配穩定性、提高抗噪聲能力。
①空間尺度函數泰勒展開式如下:   (1)
對上式求導,並令其爲0,得到精確的位置,    (2)
②在已經檢測到的特徵點中,要去掉低對比度的特徵點和不穩定的邊緣響應點。去除低對比度的點:把公式(2)代入公式(1),只取前兩項可得:
若   ,該特徵點就保留下來,否則丟棄。
③邊緣響應的去除
一個定義不好的高斯差分算子的極值在橫跨邊緣的地方有較大的主曲率,而在垂直邊緣的方向有較小的主曲率。主曲率通過一個2×2 的Hessian矩陣H求出:

導數由採樣點相鄰差估計得到。D的主曲率和H的特徵值成正比,令爲最大特徵值,爲最小的特徵值, 令   則:

(r + 1)2/r的值在兩個特徵值相等的時候最小,隨着r的增大而增大,因此,爲了檢測主曲率是否在某域值r下,只需檢測  在Lowe的文章中,取r=10。

▲關鍵點方向分配
利用關鍵點鄰域像素的梯度方向分佈特性爲每個關鍵點指定方向參數,使算子具備旋轉不變性。 
上式爲(x,y)處梯度的模值和方向公式。其中L所用的尺度爲每個關鍵點各自所在的尺度。 
在實際計算時,我們在以關鍵點爲中心的鄰域窗口內採樣,並用直方圖統計鄰域像素的梯度方向。梯度直方圖的範圍是0~360度,其中每10度一個柱,總共36個柱。直方圖的峯值則代表了該關鍵點處鄰域梯度的主方向,即作爲該關鍵點的方向。
在梯度方向直方圖中,當存在另一個相當於主峯值80%能量的峯值時,則將這個方向認爲是該關鍵點的輔方向。一個關鍵點可能會被指定具有多個方向(一個主方向,一個以上輔方向),這可以增強匹配的魯棒性。 至此,圖像的關鍵點已檢測完畢,每個關鍵點有三個信息:位置、所處尺度、方向。由此可以確定一個SIFT特徵區域(在實驗章節用橢圓或箭頭表示)。

▲特徵點描述子生成
首先將座標軸旋轉爲關鍵點的方向,以確保旋轉不變性。圖 由關鍵點鄰域梯度信息生成特徵向量

接下來以關鍵點爲中心取8×8的窗口。圖左部分的中央黑點爲當前關鍵點的位置,每個小格代表關鍵點鄰域所在尺度空間的一個像素,利用公式求得每個像素的梯度幅值與梯度方向,箭頭方向代表該像素的梯度方向,箭頭長度代表梯度模值,然後用高斯窗口對其進行加權運算,每個像素對應一個向量,長度爲,爲該像素點的高斯權值,方向爲, 圖中藍色的圈代表高斯加權的範圍(越靠近關鍵點的像素梯度方向信息貢獻越大)。然後在每4×4的小塊上計算8個方向的梯度方向直方圖,繪製每個梯度方向的累加值,即可形成一個種子點,如圖右部分示。此圖中一個關鍵點由2×2共4個種子點組成,每個種子點有8個方向向量信息。這種鄰域方向性信息聯合的思想增強了算法抗噪聲的能力,同時對於含有定位誤差的特徵匹配也提供了較好的容錯性。
實際計算過程中,爲了增強匹配的穩健性,Lowe建議對每個關鍵點使用4×4共16個種子點來描述,這樣對於一個關鍵點就可以產生128個數據,即最終形成128維的SIFT特徵向量。此時SIFT特徵向量已經去除了尺度變化、旋轉等幾何變形因素的影響,再繼續將特徵向量的長度歸一化,則可以進一步去除光照變化的影響。 
當兩幅圖像的SIFT特徵向量生成後,下一步我們採用關鍵點特徵向量的歐式距離來作爲兩幅圖像中關鍵點的相似性判定度量。取圖像1中的某個關鍵點,並找出其與圖像2中歐式距離最近的前兩個關鍵點,在這兩個關鍵點中,如果最近的距離除以次近的距離少於某個比例閾值,則接受這一對匹配點。降低這個比例閾值,SIFT匹配點數目會減少,但更加穩定。爲了排除因爲圖像遮擋和背景混亂而產生的無匹配關係的關鍵點,Lowe提出了比較最近鄰距離與次近鄰距離的方法,距離比率ratio小於某個閾值的認爲是正確匹配。因爲對於錯誤匹配,由於特徵空間的高維性,相似的距離可能有大量其他的錯誤匹配,從而它的ratio值比較高。Lowe推薦ratio的閾值爲0.8。但作者對大量任意存在尺度、旋轉和亮度變化的兩幅圖片進行匹配,結果表明ratio取值在0. 4~0. 6之間最佳,小於0. 4的很少有匹配點,大於0. 6的則存在大量錯誤匹配點。(如果這個地方你要改進,最好給出一個匹配率和ration之間的關係圖,這樣纔有說服力)作者建議ratio的取值原則如下:
ratio=0. 4 對於準確度要求高的匹配;
ratio=0. 6 對於匹配點數目要求比較多的匹配; 
ratio=0. 5 一般情況下。
也可按如下原則:當最近鄰距離<200時ratio=0. 6,反之ratio=0. 4。ratio的取值策略能排分錯誤匹配點。
5 對SIFT算法的總的概述:
SIFT算法中的鄰域方向性信息聯合的思想能夠增強算法的抗噪聲能力,同時對於含有定位誤差的特徵匹配也提供了較好的容錯性,並且SIFT特徵是圖像的局部特徵,其對圖像旋轉、尺度縮放、亮度變化保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩定性,它具有很好的獨特性和豐富的信息量,適用於海量特徵數據庫的圖像匹配。
SIFT圖像特徵的許多屬性適合於對不同圖像或場景中同一目標進行匹配。這些特徵對於圖像尺度、旋轉、亮度和3D視點都具有不變性,而且有很高的獨特性,能使單獨一個特徵從很大的特徵數據庫中被高概率正確地匹配出來,減小了由遮擋、混亂或噪音所造成的錯誤概率。
SIFT算法基於圖像特徵尺度選擇的思想,建立圖像的多尺度空間,在不同尺度下檢測到同一個特徵點,確定特徵點位置的同時確定其所在尺度,以達到尺度抗縮放的目的,剔出一些對比度較低的點以及邊緣響應點,並提取旋轉不變特徵描述符以達到抗仿射變換的目的。該算法主要包含4個步驟:
(1)建立尺度空間,尋找候選點;
(2)精確確定關鍵點,剔除不穩定點;
(3)確定關鍵點的方向;
(4)提取特徵描述符。
利用一組連續的高斯卷積核與原圖像進行卷積,生成一系列尺度空間的圖像,相鄰尺度的圖像相減就得到一組DOG圖像,然後將圖像縮小2倍並重復以上過程,直至圖像尺寸小於某一範圍(例如32×32)。
SIFT特徵描述子以基於梯度位置和方向的三維直方圖來描述圖像局部特徵,其中每個位置和方向上的描述子分量由梯度幅值的加權和計算求得,這種梯度位置和方向的量化使得SIFT特徵描述子對圖像中細小的幾何畸變以及特徵提取過程中微小的定位誤差具有非常好的抗干擾性。

本文鏈接:http://www.yongblog.com/archives/256.html 轉載請註明出處。

發佈了94 篇原創文章 · 獲贊 77 · 訪問量 60萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章