学习笔记———《SIFT算法》

本人在看论文的过程中涉及到了SIFT算法，通过阅读Lowe的文章，也对应看了别人整理的笔记，个人觉得有些地方说的不是很清楚，特整理此笔记供大家参考！想下载pdf版本的朋友请到我资源里去下载，下载地址：http://download.csdn.net/detail/lcj369387335/6846387

SIFT（Scale-InvariantFeature Transform）

SIFT（Scale-Invariant Feature Transform）尺度不变特征转换，是一种检测局部特征的算法,它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，此算法由 David Lowe在1999年《Object Recognition from Local Scale-InvariantFeatures》中发表，2004年在《DistinctiveImage Features from Scale-Invariant Keypoints》完善总结。其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。此算法有其专利，专利拥有者为英属哥伦比亚大学。局部影像特征的描述与侦测可以帮助辨识物体，SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、一些微视角改变的容忍度也相当高。基于这些特性，它们是高度显著而且相对容易撷取，在母数庞大的特征数据库中，很容易辨识物体而且鲜有误认。使用SIFT特征描述对于部分物体遮蔽的侦测率也相当高，甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下，辨识速度可接近即时运算。SIFT特征的信息量大，适合在海量数据库中快速准确匹配。

SIFT算法的特点有：

1.SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性；

2.独特性（Distinctiveness）好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配；

3.多量性，即使少数的几个物体也可以产生大量的SIFT特征向量；

4.高速性，经优化的SIFT匹配算法甚至可以达到实时的要求；

5.可扩展性，可以很方便的与其他形式的特征向量进行联合。

SIFT算法可以解决的问题：目标的自身状态、场景所处的环境和成像器材的成像特性等因素影响图像配准/目标识别跟踪的性能。而SIFT算法在一定程度上可解决：

1.目标的旋转、缩放、平移（RST）

2.图像仿射/投影变换（视点viewpoint）

3.光照影响（illumination）

4.目标遮挡（occlusion）

5.杂物场景（clutter）

6.噪声

SIFT算法的实质是在不同的尺度空间上查找特征点，并计算出特征点的方向。SIFT所查找到的特征点是一些十分突出，不会因光照、仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等。

SIFT的缺点,SIFT在图像的不变特征提取方面拥有无与伦比的优势，但并不完美，仍然存在：

1.实时性不高。

2.有时特征点较少。

3.对边缘光滑的目标无法准确提取特征点等缺点，近来不断有人改进，其中最著名的有SURF和PCA-SIFT。

Lowe将SIFT算法分解为如下五步：

1.构建尺度空间：这是一个初始化操作，尺度空间理论目的是模拟图像数据的多尺度特征。

2.检测尺度空间极值点：搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。

3.精确定位特征点：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度。特征点的选择依据于它们的稳定程度。

4.特征点方向分配：基于图像局部的梯度方向，分配给每个特征点位置一个或多个方向。所有后面的对图像数据的操作都相对于特征点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性。

5. 特征点特征矢量生成：在每个特征点周围的邻域内，在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示，这种表示允许有较大的局部形状的变形和光照变化。

本文沿着Lowe的步骤，参考Rob Hess源码，详解SIFT算法的实现过程。

1.构建尺度空间

这是一个初始化操作，SIFT算法是在不同的尺度空间上查找关键点，尺度空间理论目的是模拟图像数据的多尺度特征，而尺度空间的获取需要使用高斯模糊来实现，Tony Lindeberg等人已在《Scale-space theory: A basictool for analysing structures at different scales》中证明高斯卷积核是实现尺度变换的唯一变换核，并且是唯一的线性核。于是一个二维图像的尺度空间定义为一个变尺度的高斯函数与图像卷积产生的。即：

其中表示在x和y两个方向上进行的卷积操作，而为：

其中(x,y)代表图像像素的空间座标，是尺度空间座标。的大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度对应图像的细节特征。大的值对应粗超尺度（低分辨率），反之，小的值对应精细尺度（高分辨率）。

1.1高斯金字塔的构建

图1-1 高斯金字塔模型

尺度空间在实现时使用高斯金字塔表示，如图1-1所示，高斯金字塔的构建分为两部分：（1）对图像做不同尺度的高斯模糊；（2）对图像做降采样(隔点采样)；

1.2构建尺度空间需确定的参数

为了让尺度体现其连续性，在简单下采样的基础上加上了高斯滤波。一幅图像可以产生几组(octave)图像，每组图像包括几层(interval)图像。高斯图像金字塔共O组，每组S层，高斯金字塔组数计算公式：

其中M，N分别表示图像的行数和列数。特征点的尺度座标按特征点所在的组和组内的层计算得到：

其中表示尺度空间座标，o为组的索引，s表示组内层的索引，表示基准层尺度，S表示每组层数（一般为３～５）。当图像通过相机拍摄时，相机的镜头已经对图像进行了一次初始的模糊，根据高斯模糊的性质：

其中为第0层尺度，为被相机镜头模糊后的尺度。高斯金字塔的组内尺度是指同一组内的尺度关系，组内相邻层尺度简化为：

组间尺度是指不同组之间的尺度关系，相邻组的同层尺度简化为：

最后可将组内和组间尺度归为：，其中， i表示为金字塔组数，n为每一组的层数。上一组图像的底层是由前一组图像的倒数第三层图像隔点采样生成的，这样可以保持尺度的连续性。

在Lowe的论文使用了如下参数，。

1.3 DoG尺度空间生成

使用LoG(Laplacianof Gaussian)能够很好地找到图像中的兴趣点，取一张图像将其模糊，并且计算它的二阶导数，这样可以定位图像中的边界和直角。这些边界和直角对于找到特征点是很有帮助的。但是二阶导数对噪音是非常敏感的，通过使用模糊操作平滑噪音，可以稳定了二阶导数。这个问题计算所有二阶导数需要大量的计算，所以使用近似操作。Lowe使用更高效的高斯差分算子代替拉普拉斯算子进行极值检测。

Lindeberg早在1994年就发现高斯差分方法DoG（Difference of Gaussian）是对高斯拉普拉斯方法LoG的一个近似，DoG的响应值是对的近似。如图1-2所示。

图1-2 LoG曲线和DoG曲线的对比

在某一个尺度上对特征点的检测，可以通过对同一组内的两个相邻高斯尺度空间图像相减，得到一个DoG的响应值图像表示为：

其中K为两相邻尺度空间倍数。

由热传导方程可知：，对上式进行有限差分运算，得到：

由于常数k-1并不会影响极值点的位置，所以是的近似表示，即DoG是对LoG的近似表示。

使用DoG对LoG近似带来的好处是显而易见的。第一是LoG需要使用两个方向的高斯二阶微分卷积核，而DoG直接使用高斯卷积核，省去了对卷积核的生成的运算量；第二是DoG保留了各个高斯尺度空间的图像，这样，在生成某一空间尺度的特征时，可以直接使用式(1-1)产生的尺度空间图像，而无需重新再次生成该尺度的图像；第三是LoG对特征点进行检测较DoH（Determinant of Hessian）、Harris和其他点检测方法稳定性更好，抗图像中噪声的能力更强，而DoG是对LoG的近似和简化，因此，也具有与LoG相同的性质。

DoG是通过构建图像金字塔具体实现的。如图1-3所示。

图1-3 高斯金字塔与DoG的实现

2. 检测尺度空间极值点

特征点是由DOG空间的局部极值点组成的，特征点的搜索是通过同一组内各DoG相邻两层之间比较完成的。为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。如图2-1所示，中间的检测点与它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点。也就是说，比较是在一个3×3的立方体内进行。

图2-1 在DoG中极值点的搜索与定位

搜索过程从每组的第二层开始，以第二层为当前层，对第二层的DoG图像中的每个点取一个3×3的立方体，立方体上下层为第一层和第三层。这样搜索得到的极值点既有位置座标(DoG的图像座标)，又有空间尺度座标(层座标)。当第二层搜索完成后，再以第三层作为当前层，其过程和第二层的搜索类…….。在极值比较的过程中，每一组图像的首末两层是无法进行极值比较的，为了满足尺度变化的连续性，我们在每一组图像的顶层继续用高斯模糊生成了3幅图像，此时，高斯金字塔每组有S+3层图像，DoG金字塔每组有S+2层。这样只牺牲了0组的最低层和第N组的最高层。图2-2为不同尺度层间极值检测示意图。

图2-2 当S=3时不同尺度层间极值检测示意图

注：对“为了满足尺度变化的连续性”做仔细阐述：

假设S=3，也就是每个组里有3层，则，那么按照上图可得高斯空间和DoG空间分别有3个（S个）和2个（S-1个）分量，在DoG空间中，1st-octave两项分别是; 2nd-octave两项分别是;由于无法比较极值，我们必须在高斯空间继续添加高斯模糊项，使得形成，这样就可以选择DoG空间中的中间三项（只有左右都有才能有极值），那么下一octave中（由上一层降采样获得）所得三项即为，其首项。刚好与上一octave末项尺度变化连续起来，所以每次要在高斯空间添加3项，每组共S+3层图像，相应的DoG金字塔有S+2层图像。

3. 精确定位特征点

3.1 通过子像元插值,去掉低响应的特征点

通过拟和三维二次函数以精确确定特征点的位置和尺度（达到亚像素精度），同时去除低对比度的特征点和不稳定的边缘响应点(因为DoG算子会产生较强的边缘响应)，以增强匹配稳定性、提高抗噪声能力。

以上方法检测到的极值点是离散空间的极值点，检测到的极值点并不是真正意义上的极值点。图3-1显示了二维函数离散空间得到的极值点与连续空间极值点的差别。利用已知的离散空间点插值得到连续空间极值点的方法叫做子像素插值（Sub-pixel Interpolation）。

图3-1 离散空间的极值点与连续空间极值点之间的关系

为了提高特征点的稳定性，需要对尺度空间DoG函数进行曲线拟合。利用DoG函数在尺度空间的Taylor展开式(拟合函数)为：

其中。求导并让方程等于零，可以得到精确的极值点：

对应极值点，方程的值为：

当精确的极值点相对检测到的极值点在任一维度上的偏移量大于0.5时（即x或y或），意味着插值中心已经偏移到它的邻近点上，所以必须改变当前特征点的位置。同时在新的位置上反复插值直到收敛；也有可能超出所设定的迭代次数或者超出图像边界的范围，此时这样的点应该删除，在Lowe中进行了5次迭代。另外，过小的点易受噪声的干扰而变得不稳定，所以将小于某个经验值(Lowe论文中使用0.03，Rob Hess等人实现时使用0.04/S)的极值点删除。同时，在此过程中获取特征点的精确位置(原位置加上拟合的偏移量)以及尺度。

注：极值点求导过程：

对于n维函数，其泰勒展开式的矢量表示形式为：

当矢量为n维时，有:

对于矩阵，则

求的导数，则

则对的导数为：

求取的极值，即，得到极值点所在的位置矢量为：

3.2通过边缘效应计算,去掉边缘响应强的点

为了得到稳定的特征点，只是删除DoG响应值低的点是不够的。由于DoG对图像中的边缘有比较强的响应值，而一旦特征点落在图像的边缘上，这些点就不是稳定的点。一方面图像边缘上的点很难定位，具有定位的歧义性；另一方面这样的点很容易受到噪声的干扰而变得不稳定。

一个定义不好的高斯差分算子的极值在横跨边缘的地方有较大的主曲率，而在垂直边缘的方向有较小的主曲率。而主曲率通过一个2x2的Hessian矩阵H求出：

其中D值可以通过求取邻近点像元的差分得到，表示DoG金字塔中某一尺度的图像x方向求导两次。H的特征值与D主曲率成正比例，为了避免直接的计算这些特征值，而只是考虑它们的之间的比率。令为较大特征值，为较小的特征值，则:

如果为最大特征值与最小特征值之间的比值，那么:

这样便有:

上式的结果只与两个特征值得比例有关，而与具体特征值无关。当两个特征值相等时，的值为最小，随着的增加，的值也会增加，即在某一个方向的梯度值越大，而在另一个方向的梯度值越小，而边缘恰恰就是这种情况。所以为了剔除边缘响应点，需要让该比值小于一定的阈值，所以，要想检查主曲率的比值小于某一阈值，只要检查下式是否成立：

将满足上式成立时的特征点保留，反之剔除。

Lowe在论文中给出=10。图3-2演示了SIFT特征点检测过程中通过子像元插值和去边缘效应不断精化检测结果的例子。

图3-2 SIFT特征点检测中去边缘效应不断精化过程

（a）待检测原始图像，大小为233x189；（b）通过DoG响应极值点，得到的原始特征点，共832个；

（c）通过子像元插值，去掉低响应的特征点，共729个；（d）通过边缘效应计算，去掉边缘效应的特征点，共536个；

注：图中的箭头起点表示特征点的位置，箭头的方向表示特征点领域梯度的主方向，箭头的长度表示特征点尺度大小。

4. 特征点方向分配

为了实现描述符旋转不变性，需要根据检测到的特征点的局部图像结构求得一个基准方向。使用图像梯度的方法求取局部结构的稳定方向。对于在DoG金字塔中检测出的特征点，我们知道该特征点的尺度值，因此根据这一尺度值，得到最接近这一尺度值得高斯图像：

使用有限差分，计算以特征点为中心，以r为半径的领域内图像梯度的幅角和幅值。

梯度的幅角计算公式如下：

梯度的幅值计算公式如下:

每个加入梯度方向直方图的采样点梯度幅值都要进行权重处理，加权采用圆形高斯加权函数，按Lowe的建议，按1.5的高斯分布加成，按尺度采样三倍原则，邻域窗口半径r为3x1.5。由于SIFT算法只考虑了尺度和旋转的不变性，并没有考虑仿射不变性，通过高斯加权，使特征点附近的梯度幅值有较大的权重，这样可以部分弥补因没有仿射不变性而产生的特征点不稳定的问题。

在完成特征点领域的高斯图像的梯度计算后，使用直方图统计邻域内像素的梯度方向和幅值。梯度方向直方图的横轴是梯度方向角，纵轴是梯度方向角对应的梯度幅值累加值。梯度直方图将的方向范围分为36个柱(bins)，其中每10度为一个柱。如图4-1所示，方向直方图的峰值方向代表了该特征点领域内图像梯度的主方向，也即该特征点的主方向。

为了增强匹配的鲁棒性，当存在另一个相当于主峰值80%能量的峰值时，则将这个方向认为是该特征点的辅方向。因此，一个特征点可能会被指定具有多个方向（一个主方向，一个以上辅方向），具体而言，就是把该特征点复制成多份特征点，并将方向值分别赋给这些复制后的特征点。仅有15％的特征点被赋予多个方向，但可以明显的提高特征点匹配的稳定性。通常离散的梯度方向直方图要进行插值拟合处理，来求得更精确的方向角度值。

图4-1 从高斯图像上求取梯度，由梯度得到梯度方向直方图，为简化，图中只画了八个方向的直方图

在获得了图像的特征点主方向后，每个特征点有三个信息：位置、尺度和方向，同时也就使关键点具备平移、缩放、和旋转不变性。

5、特征点特征矢量生成

接下来就是为每个特征点建立一个描述符，用一组向量将这个特征点描述出来，使其不随各种变化而改变，比如光照变化、视角变化等。这个描述子不但包括特征点，也包含特征点周围对其有贡献的像素点，并且描述符应该有较高的独特性，以便于提高特征点正确匹配的概率。SIFT描述子是特征点附近邻域高斯图像梯度统计结果的一种表示，它是一个三维阵列，但通常将它表示成一个矢量。矢量是通过对三维阵列按一定规律进行排序得到的。通过对特征点周围图像区域分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象，具有唯一性。Lowe建议描述子使用在特征点尺度空间内4x4的窗口中计算的8个方向的梯度信息，共4x4x8=128维SIFT特征矢量。表示步骤如下：

5.1 确定计算描述子所需的图像区域

特征描述子与特征点所在的尺度有关，因此，对梯度的求取应在特征点对应的高斯图像上进行。将特征点附近的邻域划分为dxd (Lowe建议d=4)个子区域，每个子区域做作为一个种子点，每个种子点有8个方向。每个子区域的大小与特征点方向分配时相同，即每个区域有3个子像素，为每个子区域分配边长为的矩形区域进行采样(个子像素实际用边长为的矩形区域即可包含，由于不大，为了简化计算取其边长为3，并且采样点宜多不宜少)。考虑到实际计算时，需要采用双线性插值，所需图像窗口边长为3(d+1)。在考虑到旋转因素(方便下一步将座标轴旋转到特征点的方向)，如下图5-1所示，实际计算所需的图像区域半径为：

计算结果四舍五入取整，所以实际：

图 5-1 旋转引起的领域半径的变化

5.2座标轴旋转

将座标轴旋转为特征点主方向，以确保旋转不变性，如图5-2所示。

图5-2 座标轴旋转

旋转后邻域内采样点的新座标为：

5.3 计算子区域内的梯度值及其权值

将邻域内的采样点分配到对应的子区域内，将子区域内的梯度值分配到8个方向上，计算其权值。旋转后的采样点座标在半径为radius的圆内被分配到的子区域，计算影响子区域的采样点的梯度和方向，分配到8个方向上。旋转后的采样点落在子区域的下标为：

（横纵座标由原来的（-2,2）变为（0，4），所以要加上2，即d/2）。Lowe建议子区域的像素的梯度大小按0.5d的高斯加权计算，即:

其中a，b为特征点在高斯金字塔图像中的位置座标。

5.4 插值计算每个种子点八个方向的梯度

图 5-3 描述子梯度直方图

如图5-3所示，将所得采样点在子区域中的下标 (图中蓝色窗口内红色点)线性插值，计算其对每个种子点的贡献。如图中的红色点，落在第0行和第1行之间，对这两行都有贡献。对第0行第3列种子点的贡献因子为dr，对第1行第3列的贡献因子为1-dr，同理，对邻近两列的贡献因子为dc和1-dc，对邻近两个方向的贡献因子为do和1-do。则最终累加在每个方向上的梯度大小为：