SIFT特徵詳解

1.SIFT概述

SIFT的全稱是Scale Invariant Feature Transform，尺度不變特徵變換，由加拿大教授David G.Lowe提出的。SIFT特徵對旋轉、尺度縮放、亮度變化等保持不變性，是一種非常穩定的局部特徵。

1.1 SIFT算法具的特點

圖像的局部特徵，對旋轉、尺度縮放、亮度變化保持不變，對視角變化、仿射變換、噪聲也保持一定程度的穩定性。
獨特性好，信息量豐富，適用於海量特徵庫進行快速、準確的匹配。
多量性，即使是很少幾個物體也可以產生大量的SIFT特徵
高速性，經優化的SIFT匹配算法甚至可以達到實時性
擴招性，可以很方便的與其他的特徵向量進行聯合。

1.2 SIFT特徵檢測的步驟

有4個主要步驟
1. 尺度空間的極值檢測 搜索所有尺度空間上的圖像，通過高斯微分函數來識別潛在的對尺度和選擇不變的興趣點。
2. 特徵點定位 在每個候選的位置上，通過一個擬合精細模型來確定位置尺度，關鍵點的選取依據他們的穩定程度。
3. 特徵方向賦值 基於圖像局部的梯度方向，分配給每個關鍵點位置一個或多個方向，後續的所有操作都是對於關鍵點的方向、尺度和位置進行變換，從而提供這些特徵的不變性。
4. 特徵點描述 在每個特徵點周圍的鄰域內，在選定的尺度上測量圖像的局部梯度，這些梯度被變換成一種表示，這種表示允許比較大的局部形狀的變形和光照變換。

2. 尺度空間

在一定的範圍內，無論物體是大還是小，人眼都可以分辨出來。然而計算機要有相同的能力卻不是那麼的容易，在未知的場景中，計算機視覺並不能提供物體的尺度大小，其中的一種方法是把物體不同尺度下的圖像都提供給機器，讓機器能夠對物體在不同的尺度下有一個統一的認知。在建立統一認知的過程中，要考慮的就是在圖像在不同的尺度下都存在的特徵點。

2.1 多分辨率圖像金字塔

在早期圖像的多尺度通常使用圖像金字塔表示形式。圖像金字塔是同一圖像在不同的分辨率下得到的一組結果，其生成過程一般包括兩個步驟：
1. 對原始圖像進行平滑
2. 對處理後的圖像進行降採樣（通常是水平、垂直方向的1/2）
降採樣後得到一系列不斷尺寸縮小的圖像。顯然，一個傳統的金字塔中，每一層的圖像是其上一層圖像長、高的各一半。多分辨率的圖像金字塔雖然生成簡單，但其本質是降採樣，圖像的局部特徵則難以保持，也就是無法保持特徵的尺度不變性。

2.2 高斯尺度空間

我們還可以通過圖像的模糊程度來模擬人在距離物體由遠到近時物體在視網膜上成像過程，距離物體越近其尺寸越大圖像也越模糊，這就是高斯尺度空間，使用不同的參數模糊圖像（分辨率不變），是尺度空間的另一種表現形式。
我們知道圖像和高斯函數進行卷積運算能夠對圖像進行模糊，使用不同的“高斯核”可得到不同模糊程度的圖像。一副圖像其高斯尺度空間可由其和不同的高斯卷積得到：

L (x, y, σ) = G (x, y, σ) * I (x, y)

其中，

G(x,y,σ)是高斯核函數。

G (x, y, σ) = 1 2 π σ 2 e x 2 + y 2 2 σ 2

σ 稱爲尺度空間因子，它是高斯正態分佈的標準差，反映了圖像被模糊的程度，其值越大圖像越模糊，對應的尺度也就越大。

L(x,y,σ) 代表着圖像的高斯尺度空間。
構建尺度空間的目的是爲了檢測出在不同的尺度下都存在的特徵點，而檢測特徵點較好的算子是

Δ2G (高斯拉普拉斯,LoG）,

Δ 2 = \partial 2 \partial x 2 + \partial 2 \partial y 2

使用LoG雖然能較好的檢測到圖像中的特徵點，但是其運算量過大，通常可使用DoG（差分高斯，Difference of Gaussina）來近似計算LoG[Marr and Hidreth]。
設

k 爲相鄰兩個高斯尺度空間的比例因子，則DoG的定義：

D (x, y, σ) = [G (x, y, k σ) - G (x, y, σ)] * I (x, y) = L (x, y, k σ) - L (x, y, σ)

其中，

L(x,y,σ) 是圖像的高斯尺度空間。
從上式可以知道，將相鄰的兩個高斯空間的圖像相減就得到了DoG的響應圖像。爲了得到DoG圖像，先要構建高斯尺度空間，而高斯的尺度空間可以在圖像金字塔降採樣的基礎上加上高斯濾波得到，也就是對圖像金字塔的每層圖像使用不同的參數

σ 進行高斯模糊，使每層金字塔有多張高斯模糊過的圖像。降採樣時，金字塔上邊一組圖像的第一張是由其下面一組圖像倒數第三張降採樣得到。
易知，高斯金字塔有多組，每組又有多層。一組中的多個層之間的尺度是不一樣的（也就是使用的高斯參數

σ 是不同的），相鄰兩層之間的尺度相差一個比例因子

k 。如果每組有

S 層，則

k=21S 。上一組圖像的最底層圖像是由下一組中尺度爲

2σ 的圖像進行因子爲2的降採樣得到的（高斯金字塔先從底層建立）。高斯金字塔構建完成後，將相鄰的高斯金字塔相減就得到了DoG金字塔。
高斯金字塔的組數一般是

o = [log 2 m i n (m, n)] - a

o 表示高斯金字塔的層數，m，n分別是圖像的行和列。減去的係數

a 可以在

0−log2min(m,n) 之間的任意值，和具體需要的金字塔的頂層圖像的大小有關。
高斯模糊參數

σ （尺度空間），可由下面關係式得到

σ (o, s) = σ 0 \cdot 2 o + s S

其中

o 爲所在的組，

s 爲所在的層，

σ0 爲初始的尺度，

S 爲每組的層數。
在Lowe的算法實現中

σ0=1.6,omin=−1,S=3 ，

omin=−1 就是首先將原圖像的長和寬各擴展一倍。
從上面可以得知同一組內相鄰層的圖像尺度關係

σ s + 1 = k \cdot σ s = 2 1 S \cdot σ s

相鄰組之間的尺度關係

σ o + 1 = 2 σ o

2.3 高斯金字塔構建示例

以一個512×512 的圖像I爲例，構建高斯金字塔步驟：(從0開始計數，倒立的金字塔）
1. 金字塔的組數，log2512=9 ，減去因子3，構建的金字塔的組數爲6。取每組的層數爲3。
2. 構建第0組，將圖像的寬和高都增加一倍，變成1024×1024 （I0 ）。第0層I0∗G(x,y,σ0) ，第1層I0∗G(x,y,kσ0) ，第2層I0∗G(x,y,k2σ0)
3. 構建第1組，對I0 降採樣變成512×512 （I1 ）。第0層I1∗G(x,y,2σ0) ，第1層I1∗G(x,y,2kσ0)I1∗G(x,y,2k2σ0)
4. ⋮
5. 構建第o組，第s層 Io∗G(x,y,2oksσ0)

高斯金字塔構建成功後，將每一組相鄰的兩層相減就可以得到DoG金字塔.

3. DoG空間極值檢測

爲了尋找尺度空間的極值點，每個像素點要和其圖像域（同一尺度空間）和尺度域（相鄰的尺度空間）的所有相鄰點進行比較，當其大於（或者小於）所有相鄰點時，改點就是極值點。如圖所示，中間的檢測點要和其所在圖像的3×3 鄰域8個像素點，以及其相鄰的上下兩層的3×3 領域18個像素點，共26個像素點進行比較。
從上面的描述中可以知道，每組圖像的第一層和最後一層是無法進行比較取得極值的。爲了滿足尺度變換的連續性，在每一組圖像的頂層繼續使用高斯模糊生成3幅圖像，高斯金字塔每組有S+3 層圖像，DoG金字塔的每組有S+2 組圖像。

3.1 尺度變化的連續性

設S=3 ，也就是每組有3層，則k=21S=213 ，也就是有高斯金字塔每組有(S−1)3層圖像，DoG金字塔每組有 (S-2)2層圖像。在DoG金字塔的第一組有兩層尺度分別是σ,kσ ，第二組有兩層的尺度分別是2σ,2kσ ，由於只有兩項是無法比較取得極值的（只有左右兩邊都有值纔能有極值）。由於無法比較取得極值，那麼我們就需要繼續對每組的圖像進行高斯模糊，使得尺度形成σ,kσ,k2σ,k3σ,k4σ ，這樣就可以選擇中間的三項kσ,k2σ,k3σ 。對應的下一組由上一組降採樣得到的三項是2kσ,2k2σ,2k3σ ，其首項2kσ=2⋅213σ=243σ ，剛好與上一組的最後一項k3σ=233σ 的尺度連續起來。

4. 刪除不好的極值點（特徵點）

通過比較檢測得到的DoG的局部極值點實在離散的空間搜索得到的，由於離散空間是對連續空間採樣得到的結果，因此在離散空間找到的極值點不一定是真正意義上的極值點，因此要設法將不滿足條件的點剔除掉。可以通過尺度空間DoG函數進行曲線擬合尋找極值點，這一步的本質是去掉DoG局部曲率非常不對稱的點。
要剔除掉的不符合要求的點主要有兩種：
1. 低對比度的特徵點
2. 不穩定的邊緣響應點

4.1 剔除低對比度的特徵點

候選特徵點x，其偏移量定義爲Δx ，其對比度爲D(x) 的絕對值∣D(x)∣ ，對D(x) 應用泰勒展開式

D (x) = D + \partial D T \partial x Δ x + 1 2 Δ x T \partial 2 D \partial x 2 Δ x

由於x是D(x)的極值點，所以對上式求導並令其爲0，得到

Δ x = - \partial 2 D - 1 \partial x 2 \partial D ( x ) \partial x

然後再把求得的

Δx 代入到D(x)的泰勒展開式中

D (x^) = D + 1 2 \partial D T \partial x x^

設對比度的閾值爲T，若

∣D(x^)∣≥T ，則該特徵點保留，否則剔除掉。

4.2 剔除不穩定的邊緣響應點

在邊緣梯度的方向上主曲率值比較大，而沿着邊緣方向則主曲率值較小。候選特徵點的DoG函數D(x)的主曲率與2×2Hessian矩陣H 的特徵值成正比。

H = [D x x D y x D x y D y y]

其中，

Dxx,Dxy,Dyy 是候選點鄰域對應位置的差分求得的。
爲了避免求具體的值，可以使用

H 特徵值得比例。設

α=λmax 爲H的最大特徵值，

β=λmin 爲H的最小特徵值，則

T r (H) = D x x + D y y = α + β D e t (H) = D x x + D y y - D 2 x y = α \cdot β

其中，

Tr(H) 爲矩陣H的跡，

Det(H) 爲矩陣H的行列式。
設

γ=αβ 表示最大特徵值和最小特徵值的比值，則

T r ( H ) 2 D e t ( H ) = ( α + β ) 2 α β = ( γ β + β ) 2 γ β 2 = ( γ + 1 ) 2 γ

上式的結果與兩個特徵值的比例有關，和具體的大小無關，當兩個特徵值想等時其值最小，並且隨着

γ 的增大而增大。因此爲了檢測主曲率是否在某個閾值

Tγ 下，只需檢測

T r ( H ) 2 D e t ( H ) > ( T γ + 1 ) 2 T γ

如果上式成立，則剔除該特徵點，否則保留。（Lowe論文中取

Tγ=10 )

5. 求取特徵點的主方向

經過上面的步驟已經找到了在不同尺度下都存在的特徵點，爲了實現圖像旋轉不變性，需要給特徵點的方向進行賦值。利用特徵點鄰域像素的梯度分佈特性來確定其方向參數，再利用圖像的梯度直方圖求取關鍵點局部結構的穩定方向。
找到了特徵點，也就可以得到該特徵點的尺度σ ，也就可以得到特徵點所在的尺度圖像

L (x, y) = G (x, y, σ) * I (x, y)

計算以特徵點爲中心、以

3×1.5σ 爲半徑的區域圖像的幅角和幅值，每個點L(x,y)的梯度的模

m(x,y) 以及方向

θ(x,y) 可通過下面公司求得

m (x, y) = [L (x + 1, y) - L (x - 1, y)] 2 + [L (x, y + 1) - L (x, y - 1)] 2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt

θ (x, y) = arctan L ( x , y + 1 ) - L ( x , y - 1 ) L ( x + 1 , y ) - L ( x - 1 , y )

計算得到梯度方向後，就要使用直方圖統計特徵點鄰域內像素對應的梯度方向和幅值。梯度方向的直方圖的橫軸是梯度方向的角度（梯度方向的範圍是0到360度，直方圖每36度一個柱共10個柱，或者沒45度一個柱共8個柱），縱軸是梯度方向對應梯度幅值的累加，在直方圖的峯值就是特徵點的主方向。在Lowe的論文還提到了使用高斯函數對直方圖進行平滑以增強特徵點近的鄰域點對關鍵點方向的作用，並減少突變的影響。爲了得到更精確的方向，通常還可以對離散的梯度直方圖進行插值擬合。具體而言，關鍵點的方向可以由和主峯值最近的三個柱值通過拋物線插值得到。在梯度直方圖中，當存在一個相當於主峯值80%能量的柱值時，則可以將這個方向認爲是該特徵點輔助方向。所以，一個特徵點可能檢測到多個方向（也可以理解爲，一個特徵點可能產生多個座標、尺度相同，但是方向不同的特徵點）。Lowe在論文中指出

15%的關鍵點具有多方向，而且這些點對匹配的穩定性很關鍵。

得到特徵點的主方向後，對於每個特徵點可以得到三個信息(x,y,σ,θ) ，即位置、尺度和方向。由此可以確定一個SIFT特徵區域，一個SIFT特徵區域由三個值表示，中心表示特徵點位置，半徑表示關鍵點的尺度，箭頭表示主方向。具有多個方向的關鍵點可以被複製成多份，然後將方向值分別賦給複製後的特徵點，一個特徵點就產生了多個座標、尺度相等，但是方向不同的特徵點。

6. 生成特徵描述

通過以上的步驟已經找到了SIFT特徵點位置、尺度和方向信息，下面就需要使用一組向量來描述關鍵點也就是生成特徵點描述子，這個描述符不只包含特徵點，也含有特徵點周圍對其有貢獻的像素點。描述子應具有較高的獨立性，以保證匹配率。
特徵描述符的生成大致有三個步驟：
1. 校正旋轉主方向，確保旋轉不變性。
2. 生成描述子，最終形成一個128維的特徵向量
3. 歸一化處理，將特徵向量長度進行歸一化處理，進一步去除光照的影響。

爲了保證特徵矢量的旋轉不變性，要以特徵點爲中心，在附近鄰域內將座標軸旋轉θ （特徵點的主方向）角度，即將座標軸旋轉爲特徵點的主方向。旋轉後鄰域內像素的新座標爲：

[x' y'] = [cos θ - sin θ sin θ cos θ] [x y]

旋轉後以主方向爲中心取 8×8 的窗口。下圖所示，左圖的中央爲當前關鍵點的位置，每個小格代表爲關鍵點鄰域所在尺度空間的一個像素，求取每個像素的梯度幅值與梯度方向，箭頭方向代表該像素的梯度方向，長度代表梯度幅值，然後利用高斯窗口對其進行加權運算。最後在每個4×4 的小塊上繪製8個方向的梯度直方圖，計算每個梯度方向的累加值，即可形成一個種子點，如右圖所示。每個特徵點由4個種子點組成，每個種子點有8個方向的向量信息。這種鄰域方向性信息聯合增強了算法的抗噪聲能力，同時對於含有定位誤差的特徵匹配也提供了比較理性的容錯性。

與求主方向不同，此時每個種子區域的梯度直方圖在0-360之間劃分爲8個方向區間，每個區間爲45度，即每個種子點有8個方向的梯度強度信息。
在實際的計算過程中，爲了增強匹配的穩健性，Lowe建議

對每個關鍵點使用4×4 共16個種子點來描述，這樣一個關鍵點就可以產生128維的SIFT特徵向量。

通過對特徵點周圍的像素進行分塊，計算塊內梯度直方圖，生成具有獨特性的向量，這個向量是該區域圖像信息的一種抽象，具有唯一性。

7. 總結

SIFT特徵以其對旋轉、尺度縮放、亮度等保持不變性，是一種非常穩定的局部特徵，在圖像處理和計算機視覺領域有着很重要的作用，其本身也是非常複雜的，下面對其計算過程做一個粗略總結。

DoG尺度空間的極值檢測。首先是構造DoG尺度空間，在SIFT中使用不同參數的高斯模糊來表示不同的尺度空間。而構造尺度空間是爲了檢測在不同尺度下都存在的特徵點，特徵點的檢測比較常用的方法是Δ2G （高斯拉普拉斯LoG），但是LoG的運算量是比較大的，Marr和Hidreth曾指出，可以使用DoG（差分高斯）來近似計算LoG，所以在DoG的尺度空間下檢測極值點。
刪除不穩定的極值點。主要刪除兩類：低對比度的極值點以及不穩定的邊緣響應點。
* 確定特徵點的主方向*。以特徵點的爲中心、以3×1.5σ 爲半徑的領域內計算各個像素點的梯度的幅角和幅值，然後使用直方圖對梯度的幅角進行統計。直方圖的橫軸是梯度的方向，縱軸爲梯度方向對應梯度幅值的累加值，直方圖中最高峯所對應的方向即爲特徵點的方向。
生成特徵點的描述子。首先將座標軸旋轉爲特徵點的方向，以特徵點爲中心的16×16 的窗口的像素的梯度幅值和方向，將窗口內的像素分成16塊，每塊是其像素內8個方向的直方圖統計，共可形成128維的特徵向量。

1.SIFT概述

1.1 SIFT算法具的特點

1.2 SIFT特徵檢測的步驟

2. 尺度空間

2.1 多分辨率圖像金字塔

2.2 高斯尺度空間

2.3 高斯金字塔構建示例

3. DoG空間極值檢測

3.1 尺度變化的連續性

4. 刪除不好的極值點（特徵點）

4.1 剔除低對比度的特徵點

4.2 剔除不穩定的邊緣響應點

5. 求取特徵點的主方向

6. 生成特徵描述

7. 總結

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

FFmpeg學習2：解碼數據結構及函數總結

SIFT特徵詳解

FFmpeg學習1：視頻解碼

FFmpeg學習5：多線程播放視音頻

FFmpeg學習3：播放音頻

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結