SIFT算法實現理解及註釋詳解(基於Rob Hess源碼)

Rob Hess的SIFT算法實現理解及註釋

SIFT算法不用我多解釋了，這是一個很強大的算法，主要用於圖像配準和物體識別等領域，但是其計算量相比也比較大，性價比比較高的算法包括PCA-SIFT和SURF其中OpenCV提供了SURF算法，但是爲了方便理解。這裏給出了Rob Hess所實現的SIFT算法的實現以及註釋，結合我自己的理解，如果，您有關於SIFT算法不理解的地方咱們可以一起交流一下。或者您認爲不詳細的地方提出來。

SIFT算法的主要實現在sift.c這個文件，其主要流程爲：

(1)首先創建初始圖像，即通過將圖像轉換爲32位的灰度圖，然後將圖像使用三次插值來方大，之後通過高斯模糊處理

(2)在此基礎上進行高斯金字塔的構建以及高斯差分金字塔的構建

(3)對圖像進行極值點檢測

(4)計算特徵向量的尺度

(5)調整圖像大小

(6)計算特徵的方向

(7)計算描述子，其中包括計算二維方向直方圖並轉換直方圖爲特徵描述子

首先給出sift算法的整體框架代碼：

輸入參數：

img爲輸入圖像；

feat爲所要提取的特徵指針；

intvl指的是高斯金字塔和差分金字塔的層數；

sigma指的是圖像初始化過程中高斯模糊所使用的參數；

contr_thr是歸一化之後的去除不穩定特徵的閾值；

curv_thr指的是去除邊緣的特徵的主曲率閾值；

img_dbl是是否將圖像放大爲之前的兩倍；

descr_with用來計算特徵描述子的方向直方圖的寬度；

descr_hist_bins是直方圖中的條數


int _sift_features( IplImage* img, struct feature** feat, int intvls,  

                   double sigma, double contr_thr, int curv_thr,  

                   int img_dbl, int descr_width, int descr_hist_bins )  

{  

    IplImage* init_img;  

    IplImage*** gauss_pyr, *** dog_pyr;  

    CvMemStorage* storage;  

    CvSeq* features;  

    int octvs, i, n = 0;  

    /* check arguments */  

    if( ! img )  

        fatal_error( "NULL pointer error, %s, line %d",  __FILE__, __LINE__ );  

    if( ! feat )  

        fatal_error( "NULL pointer error, %s, line %d",  __FILE__, __LINE__ );  

    /* build scale space pyramid; smallest dimension of top level is ~4 pixels */  

    /* 構建高斯尺度空間金字塔，頂層最小的爲4像素 */  

    init_img = create_init_img( img, img_dbl, sigma );  

    octvs = log( double MIN( init_img->width, init_img->height ) ) / log(2.0) - 2;  

    //構建高斯金字塔和高斯差分金字塔  

    gauss_pyr = build_gauss_pyr( init_img, octvs, intvls, sigma );  

    dog_pyr = build_dog_pyr( gauss_pyr, octvs, intvls );  

    storage = cvCreateMemStorage( 0 );  

    //尺度空間極值點檢測  

    features = scale_space_extrema( dog_pyr, octvs, intvls, contr_thr,  

        curv_thr, storage );  

    //畫出去除低對比度的極值點  

    //draw_extrempoint(img , features);  

    //計算特徵向量的尺度  

    calc_feature_scales( features, sigma, intvls );  

    if( img_dbl )  

        adjust_for_img_dbl( features );  

    //計算特徵的方向  

    calc_feature_oris( features, gauss_pyr );  

    //計算描述子，包括計算二維方向直方圖和轉換其爲特徵描述子  

    compute_descriptors( features, gauss_pyr, descr_width, descr_hist_bins );  

    /* sort features by decreasing scale and move from CvSeq to array */  

    cvSeqSort( features, (CvCmpFunc)feature_cmp, NULL );  

    n = features->total;  

    *feat = static_cast<feature *>( calloc( n, sizeof(struct feature) ) );  

    *feat = static_cast<feature *>( cvCvtSeqToArray( features, *feat, CV_WHOLE_SEQ ) );  

    for( i = 0; i < n; i++ )  

    {  

        free( (*feat)[i].feature_data );  

        (*feat)[i].feature_data = NULL;  

    }  

    cvReleaseMemStorage( &storage );  

    cvReleaseImage( &init_img );  

    release_pyr( &gauss_pyr, octvs, intvls + 3 );  

    release_pyr( &dog_pyr, octvs, intvls + 2 );  

    return n;  

}

(1)初始化圖像

輸入參數：

這裏不需要解釋了

該函數主要用來初始化圖像，轉換圖像爲32位灰度圖以及進行高斯模糊。


static IplImage* create_init_img( IplImage* img, int img_dbl, double sigma )  

{  

    IplImage* gray, * dbl;  

    float sig_diff;  

    gray = convert_to_gray32( img );  

    if( img_dbl )  

    {  

        sig_diff = sqrt( sigma * sigma - SIFT_INIT_SIGMA * SIFT_INIT_SIGMA * 4 );  

        dbl = cvCreateImage( cvSize( img->width*2, img->height*2 ),  

            IPL_DEPTH_32F, 1 );  

        cvResize( gray, dbl, CV_INTER_CUBIC );  

        cvSmooth( dbl, dbl, CV_GAUSSIAN, 0, 0, sig_diff, sig_diff );  

        cvReleaseImage( &gray );  

        return dbl;  

    }  

    else  

    {  

        sig_diff = sqrt( sigma * sigma - SIFT_INIT_SIGMA * SIFT_INIT_SIGMA );  

        cvSmooth( gray, gray, CV_GAUSSIAN, 0, 0, sig_diff, sig_diff );  

        return gray;  

    }  

}

(2)構建高斯金字塔

輸入參數：

octvs是高斯金字塔的組

invls是高斯金字塔的層數

sigma是初始的高斯模糊參數，後續也通過它計算每一層所使用的sigma


<span style="font-size:13px;">static IplImage*** build_gauss_pyr( IplImage* base, int octvs,int intvls, double sigma )  

{  

    IplImage*** gauss_pyr;  

    double* sig = static_cast<double *>( calloc( intvls + 3, sizeof(double)) );  

    double sig_total, sig_prev, k;  

    int i, o;  

    gauss_pyr = static_cast<IplImage ***>( calloc( octvs, sizeof( IplImage** ) ) );  

    for( i = 0; i < octvs; i++ )  

        gauss_pyr[i] = static_cast<IplImage **>( calloc( intvls + 3, sizeof( IplImage* ) ) );  

    /* 

        precompute Gaussian sigmas using the following formula: 

        預計算每次高斯模糊的sigma 

        \sigma_{total}^2 = \sigma_{i}^2 + \sigma_{i-1}^2 

    */  

    sig[0] = sigma;  

    k = pow( 2.0, 1.0 / intvls );  

    for( i = 1; i < intvls + 3; i++ )  

    {  

        sig_prev = pow( k, i - 1 ) * sigma;  

        sig_total = sig_prev * k;  

        sig[i] = sqrt( sig_total * sig_total - sig_prev * sig_prev );  

    }  

    for( o = 0; o < octvs; o++ )  

        for( i = 0; i < intvls + 3; i++ )  

        {  

            //對每一層進行降採樣，形成高斯金字塔的每一層  

            if( o == 0  &&  i == 0 )  

                gauss_pyr[o][i] = cvCloneImage(base);  

            /* base of new octvave is halved image from end of previous octave */  

            //每一組的第一層都是通過對前面一組的最上面一層的降採樣實現的  

            else if( i == 0 )  

                gauss_pyr[o][i] = downsample( gauss_pyr[o-1][intvls] );  

            /* blur the current octave's last image to create the next one */  

            //每一組的其他層則使通過使用不同sigma的高斯模糊來進行處理  

            else  

            {  

                gauss_pyr[o][i] = cvCreateImage( cvGetSize(gauss_pyr[o][i-1]),  

                    IPL_DEPTH_32F, 1 );  

                cvSmooth( gauss_pyr[o][i-1], gauss_pyr[o][i],  

                    CV_GAUSSIAN, 0, 0, sig[i], sig[i] );  

            }  

        }  

    free( sig );  

    return gauss_pyr;  

}</span>

降採樣處理

輸入參數：

不解釋

這就是降採樣，其實就是將圖像通過最近鄰算法縮小爲原來的一半


static IplImage* downsample( IplImage* img )  

{  

    IplImage* smaller = cvCreateImage( cvSize(img->width / 2, img->height / 2),  

        img->depth, img->nChannels );  

    cvResize( img, smaller, CV_INTER_NN );  

    return smaller;  

}

(3)構建高斯差分金字塔

輸入參數：

不解釋了參見上面的說明即可

實際上差分金字塔的構成是通過對相鄰層的圖像進行相減獲得的


<span style="font-size:16px;">static IplImage*** build_dog_pyr( IplImage*** gauss_pyr, int octvs, int intvls )  

{  

    IplImage*** dog_pyr;  

    int i, o;  

    dog_pyr = static_cast<IplImage ***>( calloc( octvs, sizeof( IplImage** ) ) );  

    for( i = 0; i < octvs; i++ )  

        dog_pyr[i] = static_cast<IplImage **>( calloc( intvls + 2, sizeof(IplImage*) ) );  

    for( o = 0; o < octvs; o++ )  

        for( i = 0; i < intvls + 2; i++ )  

        {  

            dog_pyr[o][i] = cvCreateImage( cvGetSize(gauss_pyr[o][i]),  

                IPL_DEPTH_32F, 1 );  

            cvSub( gauss_pyr[o][i+1], gauss_pyr[o][i], dog_pyr[o][i], NULL );  

        }  

    return dog_pyr;  

}</span>

(4)極值點檢測

輸入參數：

contr_thr是去除對比度低的點所採用的閾值

curv_thr是去除邊緣特徵的閾值


static CvSeq* scale_space_extrema( IplImage*** dog_pyr, int octvs, int intvls,  

                                   double contr_thr, int curv_thr,  

                                   CvMemStorage* storage )  

{  

    CvSeq* features;  

    double prelim_contr_thr = 0.5 * contr_thr / intvls;  

    struct feature* feat;  

    struct detection_data* ddata;  

    int o, i, r, c;  

    features = cvCreateSeq( 0, sizeof(CvSeq), sizeof(struct feature), storage );  

    for( o = 0; o < octvs; o++ )  

        for( i = 1; i <= intvls; i++ )  

            for(r = SIFT_IMG_BORDER; r < dog_pyr[o][0]->height-SIFT_IMG_BORDER; r++)  

                for(c = SIFT_IMG_BORDER; c < dog_pyr[o][0]->width-SIFT_IMG_BORDER; c++)  

                    /* perform preliminary check on contrast */  

                    if( ABS( pixval32f( dog_pyr[o][i], r, c ) ) > prelim_contr_thr )  

                        if( is_extremum( dog_pyr, o, i, r, c ) )  

                        {  

                            feat = interp_extremum(dog_pyr, o, i, r, c, intvls, contr_thr);  

                            if( feat )  

                            {  

                                ddata = feat_detection_data( feat );  

                                if( ! is_too_edge_like( dog_pyr[ddata->octv][ddata->intvl],  

                                    ddata->r, ddata->c, curv_thr ) )  

                                {  

                                    cvSeqPush( features, feat );  

                                }  

                                else  

                                    free( ddata );  

                                free( feat );  

                            }  

                        }  

    return features;  

}

SIFT_IMG_BORDER是預定義的圖像邊緣；

通過和對比度閾值比較去掉低對比度的點；

而通過is_extremum來判斷是否爲極值點，如果是則通過極值點插值的方式獲取亞像素的極值點的位置。

然後通過is_too_eage_like和所給的主曲率閾值判斷是否爲邊緣點

*判斷是否爲極值點

其原理爲:通過和高斯金字塔的上一層的9個像素+本層的除了本像素自己的其他的8個像素和下一層的9個像素進行比較看是否爲這26個像素中最小的一個或者是否爲最大的一個，如果是則爲極值點。


static int is_extremum( IplImage*** dog_pyr, int octv, int intvl, int r, int c )  

{  

    float val = pixval32f( dog_pyr[octv][intvl], r, c );  

    int i, j, k;  

    /* check for maximum */  

    if( val > 0 )  

    {  

        for( i = -1; i <= 1; i++ )  

            for( j = -1; j <= 1; j++ )  

                for( k = -1; k <= 1; k++ )  

                    if( val < pixval32f( dog_pyr[octv][intvl+i], r + j, c + k ) )  

                        return 0;  

    }  

    /* check for minimum */  

    else  

    {  

        for( i = -1; i <= 1; i++ )  

            for( j = -1; j <= 1; j++ )  

                for( k = -1; k <= 1; k++ )  

                    if( val > pixval32f( dog_pyr[octv][intvl+i], r + j, c + k ) )  

                        return 0;  

    }  

    return 1;  

}

*獲取亞像素的極值點的位置


static struct feature* interp_extremum( IplImage*** dog_pyr, int octv, int intvl,  

                                        int r, int c, int intvls, double contr_thr )  

{  

    struct feature* feat;  

    struct detection_data* ddata;  

    double xi, xr, xc, contr;//分別爲亞像素的intval,row,col的偏移offset，和對比度  

    int i = 0;  

    while( i < SIFT_MAX_INTERP_STEPS )//重新確定極值點並重新定位的操作只能循環 5次  

    {  

        interp_step( dog_pyr, octv, intvl, r, c, &xi, &xr, &xc );  

        if( ABS( xi ) < 0.5  &&  ABS( xr ) < 0.5  &&  ABS( xc ) < 0.5 )//如果滿足條件就停止尋找  

            break;  

        //否則繼續尋找極值點  

        c += cvRound( xc );  

        r += cvRound( xr );  

        intvl += cvRound( xi );  

        if( intvl < 1  ||  

            intvl > intvls  ||  

            c < SIFT_IMG_BORDER  ||  

            r < SIFT_IMG_BORDER  ||  

            c >= dog_pyr[octv][0]->width - SIFT_IMG_BORDER  ||  

            r >= dog_pyr[octv][0]->height - SIFT_IMG_BORDER )  

        {  

            return NULL;  

        }  

        i++;  

    }  

    //確保極值點是經過最大5步找到的  

    /* ensure convergence of interpolation */  

    if( i >= SIFT_MAX_INTERP_STEPS )  

        return NULL;  

    //獲取找到的極值點的對比度  

    contr = interp_contr( dog_pyr, octv, intvl, r, c, xi, xr, xc );  

    //判斷極值點是否小於某一個閾值  

    if( ABS( contr ) < contr_thr / intvls )  

        return NULL;  

    //若小於，則認爲是極值點  

    feat = new_feature();  

    ddata = feat_detection_data( feat );  

    feat->img_pt.x = feat->x = ( c + xc ) * pow( 2.0, octv );  

    feat->img_pt.y = feat->y = ( r + xr ) * pow( 2.0, octv );  

    ddata->r = r;  

    ddata->c = c;  

    ddata->octv = octv;  

    ddata->intvl = intvl;  

    ddata->subintvl = xi;  

    return feat;  

}

*獲取亞像素位置中所用到的函數


static void interp_step( IplImage*** dog_pyr, int octv, int intvl, int r, int c,  

                         double* xi, double* xr, double* xc )  

{  

    CvMat* dD, * H, * H_inv, X;  

    double x[3] = { 0 };  

    //計算三維偏導數  

    dD = deriv_3D( dog_pyr, octv, intvl, r, c );  

    //計算三維海森矩陣  

    H = hessian_3D( dog_pyr, octv, intvl, r, c );  

    H_inv = cvCreateMat( 3, 3, CV_64FC1 );  

    cvInvert( H, H_inv, CV_SVD );  

    cvInitMatHeader( &X, 3, 1, CV_64FC1, x, CV_AUTOSTEP );  

    cvGEMM( H_inv, dD, -1, NULL, 0, &X, 0 );  

    cvReleaseMat( &dD );  

    cvReleaseMat( &H );  

    cvReleaseMat( &H_inv );  

    *xi = x[2];  

    *xr = x[1];  

    *xc = x[0];  

}

*計算三維偏導數

計算在x和y方向上的偏導數，高斯差分尺度空間金字塔中像素的尺度

實際上在離散數據中計算偏導數是通過相鄰像素的相減來計算的

比如說計算x方向的偏導數dx，則通過該向所的x方向的後一個減去前一個然後除以2即可求的dx


static CvMat* deriv_3D( IplImage*** dog_pyr, int octv, int intvl, int r, int c )  

{  

    CvMat* dI;  

    double dx, dy, ds;  

    dx = ( pixval32f( dog_pyr[octv][intvl], r, c+1 ) -  

        pixval32f( dog_pyr[octv][intvl], r, c-1 ) ) / 2.0;  

    dy = ( pixval32f( dog_pyr[octv][intvl], r+1, c ) -  

        pixval32f( dog_pyr[octv][intvl], r-1, c ) ) / 2.0;  

    ds = ( pixval32f( dog_pyr[octv][intvl+1], r, c ) -  

        pixval32f( dog_pyr[octv][intvl-1], r, c ) ) / 2.0;  

    dI = cvCreateMat( 3, 1, CV_64FC1 );  

    cvmSet( dI, 0, 0, dx );  

    cvmSet( dI, 1, 0, dy );  

    cvmSet( dI, 2, 0, ds );  

    return dI;  

}

*計算三維海森矩陣

不需要講什麼，其實就是計算二次導數，計算方法也和一次導數的計算如出一轍。

然後將結果放入到一個矩陣中去。


static CvMat* hessian_3D( IplImage*** dog_pyr, int octv, int intvl, int r, int c )  

{  

    CvMat* H;  

    double v, dxx, dyy, dss, dxy, dxs, dys;  

    v = pixval32f( dog_pyr[octv][intvl], r, c );  

    dxx = ( pixval32f( dog_pyr[octv][intvl], r, c+1 ) +   

            pixval32f( dog_pyr[octv][intvl], r, c-1 ) - 2 * v );  

    dyy = ( pixval32f( dog_pyr[octv][intvl], r+1, c ) +  

            pixval32f( dog_pyr[octv][intvl], r-1, c ) - 2 * v );  

    dss = ( pixval32f( dog_pyr[octv][intvl+1], r, c ) +  

            pixval32f( dog_pyr[octv][intvl-1], r, c ) - 2 * v );  

    dxy = ( pixval32f( dog_pyr[octv][intvl], r+1, c+1 ) -  

            pixval32f( dog_pyr[octv][intvl], r+1, c-1 ) -  

            pixval32f( dog_pyr[octv][intvl], r-1, c+1 ) +  

            pixval32f( dog_pyr[octv][intvl], r-1, c-1 ) ) / 4.0;  

    dxs = ( pixval32f( dog_pyr[octv][intvl+1], r, c+1 ) -  

            pixval32f( dog_pyr[octv][intvl+1], r, c-1 ) -  

            pixval32f( dog_pyr[octv][intvl-1], r, c+1 ) +  

            pixval32f( dog_pyr[octv][intvl-1], r, c-1 ) ) / 4.0;  

    dys = ( pixval32f( dog_pyr[octv][intvl+1], r+1, c ) -  

            pixval32f( dog_pyr[octv][intvl+1], r-1, c ) -  

            pixval32f( dog_pyr[octv][intvl-1], r+1, c ) +  

            pixval32f( dog_pyr[octv][intvl-1], r-1, c ) ) / 4.0;  

    H = cvCreateMat( 3, 3, CV_64FC1 );  

    cvmSet( H, 0, 0, dxx );  

    cvmSet( H, 0, 1, dxy );  

    cvmSet( H, 0, 2, dxs );  

    cvmSet( H, 1, 0, dxy );  

    cvmSet( H, 1, 1, dyy );  

    cvmSet( H, 1, 2, dys );  

    cvmSet( H, 2, 0, dxs );  

    cvmSet( H, 2, 1, dys );  

    cvmSet( H, 2, 2, dss );  

    return H;  

}

*計算插入像素的對比度


static double interp_contr( IplImage*** dog_pyr, int octv, int intvl, int r,  

                            int c, double xi, double xr, double xc )  

{  

    CvMat* dD, X, T;  

    double t[1], x[3] = { xc, xr, xi };  

    cvInitMatHeader( &X, 3, 1, CV_64FC1, x, CV_AUTOSTEP );  

    cvInitMatHeader( &T, 1, 1, CV_64FC1, t, CV_AUTOSTEP );  

    dD = deriv_3D( dog_pyr, octv, intvl, r, c );  

    cvGEMM( dD, &X, 1, NULL, 0, &T,  CV_GEMM_A_T );  

    cvReleaseMat( &dD );  

    return pixval32f( dog_pyr[octv][intvl], r, c ) + t[0] * 0.5;  

}

其中cvGEMM是矩陣的通用計算函數，至於CV_GEMM_A_T是計算dD的轉置矩陣放入T中

*去除邊緣相應
通過計算所在特徵向量的主曲率半徑來判斷特徵是邊緣的從而導致不穩定
即去除邊緣響應


static int is_too_edge_like( IplImage* dog_img, int r, int c, int curv_thr )  

{  

    double d, dxx, dyy, dxy, tr, det;  

    /* principal curvatures are computed using the trace and det of Hessian */  

    d = pixval32f(dog_img, r, c);  

    dxx = pixval32f( dog_img, r, c+1 ) + pixval32f( dog_img, r, c-1 ) - 2 * d;  

    dyy = pixval32f( dog_img, r+1, c ) + pixval32f( dog_img, r-1, c ) - 2 * d;  

    dxy = ( pixval32f(dog_img, r+1, c+1) - pixval32f(dog_img, r+1, c-1) -  

            pixval32f(dog_img, r-1, c+1) + pixval32f(dog_img, r-1, c-1) ) / 4.0;  

    tr = dxx + dyy;  

    det = dxx * dyy - dxy * dxy;  

    /* negative determinant -> curvatures have different signs; reject feature */  

    if( det <= 0 )  

        return 1;  

    if( tr * tr / det < ( curv_thr + 1.0 )*( curv_thr + 1.0 ) / curv_thr )  

        return 0;  

    return 1;  

}

(4)計算特徵向量的尺度

實際上是通過最初的sigma來獲得每一層每一組的尺度


static void calc_feature_scales( CvSeq* features, double sigma, int intvls )  

{  

    struct feature* feat;  

    struct detection_data* ddata;  

    double intvl;  

    int i, n;  

    n = features->total;  

    for( i = 0; i < n; i++ )  

    {  

        feat = CV_GET_SEQ_ELEM( struct feature, features, i );  

        ddata = feat_detection_data( feat );  

        intvl = ddata->intvl + ddata->subintvl;  

        feat->scl = sigma * pow( 2.0, ddata->octv + intvl / intvls );  

        ddata->scl_octv = sigma * pow( 2.0, intvl / intvls );  

    }  

}

(5)調整圖像特徵座標、尺度、點的座標大小爲原來的一半


static void adjust_for_img_dbl( CvSeq* features )  

{  

    struct feature* feat;  

    int i, n;  

    n = features->total;  

    for( i = 0; i < n; i++ )  

    {  

        feat = CV_GET_SEQ_ELEM( struct feature, features, i );  

        feat->x /= 2.0;  

        feat->y /= 2.0;  

        feat->scl /= 2.0;  

        feat->img_pt.x /= 2.0;  

        feat->img_pt.y /= 2.0;  

    }  

}

(6)給每一個圖像特徵向量計算規範化的方向


static void calc_feature_oris( CvSeq* features, IplImage*** gauss_pyr )  

{  

    struct feature* feat;  

    struct detection_data* ddata;  

    double* hist;  

    double omax;  

    int i, j, n = features->total;  

    //遍歷整個檢測出來的特徵點，計算每個特徵點的直方圖，然後平滑直方圖去除突變，然後找到每一個特徵點的主方向，並加入到好的方向特徵數組中去  

    for( i = 0; i < n; i++ )  

    {  

        feat = static_cast<feature *>( malloc( sizeof( struct feature ) ) );  

        cvSeqPopFront( features, feat );  

        ddata = feat_detection_data( feat );  

        //計算給定的某個像素的灰度方向直方圖  

        hist = ori_hist( gauss_pyr[ddata->octv][ddata->intvl],  

                        ddata->r, ddata->c, SIFT_ORI_HIST_BINS,  

                        cvRound( SIFT_ORI_RADIUS * ddata->scl_octv ),  

                        SIFT_ORI_SIG_FCTR * ddata->scl_octv );  

        for( j = 0; j < SIFT_ORI_SMOOTH_PASSES; j++ )  

            smooth_ori_hist( hist, SIFT_ORI_HIST_BINS );  

        omax = dominant_ori( hist, SIFT_ORI_HIST_BINS );  

        //描述子向量元素門限化  

        add_good_ori_features( features, hist, SIFT_ORI_HIST_BINS,  

                                omax * SIFT_ORI_PEAK_RATIO, feat );  

        free( ddata );  

        free( feat );  

        free( hist );  

    }  

}

*對所給像素計算灰度方向直方圖
以關鍵點爲中心的鄰域窗口內採樣，並用直方圖統計鄰域像素的梯度
方向。梯度直方圖的範圍是0～360度，其中每10度一個柱，總共36個柱


static double* ori_hist( IplImage* img, int r, int c, int n, int rad, double sigma)  

{  

    double* hist;  

    double mag, ori, w, exp_denom, PI2 = CV_PI * 2.0;  

    int bin, i, j;  

    hist = static_cast<double *>( calloc( n, sizeof( double ) ) );  

    exp_denom = 2.0 * sigma * sigma;  

    for( i = -rad; i <= rad; i++ )  

        for( j = -rad; j <= rad; j++ )  

            if( calc_grad_mag_ori( img, r + i, c + j, &mag, &ori ) )  

            {  

                w = exp( -( i*i + j*j ) / exp_denom );  

                bin = cvRound( n * ( ori + CV_PI ) / PI2 );  

                bin = ( bin < n )? bin : 0;  

                hist[bin] += w * mag;  

            }  

    return hist;  

}

*計算所給像素的梯度大小和方向
每一個小格都代表了特徵點鄰域所在的尺度空間的一個像素，箭頭方向代表了像素梯
度方向，箭頭長度代表該像素的幅值也就是梯度的值


static int calc_grad_mag_ori( IplImage* img, int r, int c, double* mag, double* ori )  

{  

    double dx, dy;  

    if( r > 0  &&  r < img->height - 1  &&  c > 0  &&  c < img->width - 1 )  

    {  

        dx = pixval32f( img, r, c+1 ) - pixval32f( img, r, c-1 );  

        dy = pixval32f( img, r-1, c ) - pixval32f( img, r+1, c );  

        *mag = sqrt( dx*dx + dy*dy );  

        *ori = atan2( dy, dx );  

        return 1;  

    }  

    else  

        return 0;  

}

*對方向直方圖進行高斯模糊
使用高斯函數對直方圖進行平滑，減少突變的影響。


static void smooth_ori_hist( double* hist, int n )  

{  

    double prev, tmp, h0 = hist[0];  

    int i;  

    prev = hist[n-1];  

    for( i = 0; i < n; i++ )  

    {  

        tmp = hist[i];  

        hist[i] = 0.25 * prev + 0.5 * hist[i] +   

            0.25 * ( ( i+1 == n )? h0 : hist[i+1] );  

        prev = tmp;  

    }  

}

*在直方圖中找到主方向的梯度
利用關鍵點鄰域像素的梯度方向分佈特性爲每個關鍵點指定方向參數，使算子具備
旋轉不變性。


static double dominant_ori( double* hist, int n )  

{  

    double omax;  

    int maxbin, i;  

    omax = hist[0];  

    maxbin = 0;  

    for( i = 1; i < n; i++ )  

        if( hist[i] > omax )  

        {  

            omax = hist[i];  

            maxbin = i;  

        }  

    return omax;  

}

*將大於某一個梯度大小閾值的特徵向量加入到直方圖中去

n爲方向的個數


<span style="font-size:18px;">mag_thr描述子向量門限一般取0.2</span>


static void add_good_ori_features( CvSeq* features, double* hist, int n,  

                                   double mag_thr, struct feature* feat )  

{  

    struct feature* new_feat;  

    double bin, PI2 = CV_PI * 2.0;  

    int l, r, i;  

    for( i = 0; i < n; i++ )  

    {  

        l = ( i == 0 )? n - 1 : i-1;  

        r = ( i + 1 ) % n;  

        //描述子向量門限化，一般門限取0.2  

        if( hist[i] > hist[l]  &&  hist[i] > hist[r]  &&  hist[i] >= mag_thr )  

        {  

            bin = i + interp_hist_peak( hist[l], hist[i], hist[r] );  

            bin = ( bin < 0 )? n + bin : ( bin >= n )? bin - n : bin;  

            new_feat = clone_feature( feat );  

            new_feat->ori = ( ( PI2 * bin ) / n ) - CV_PI;  

            cvSeqPush( features, new_feat );  

            free( new_feat );  

        }  

    }  

}

(7)計算特徵描述子


static void compute_descriptors( CvSeq* features, IplImage*** gauss_pyr, int d, int n)  

{  

    struct feature* feat;  

    struct detection_data* ddata;  

    double*** hist;  

    int i, k = features->total;  

    for( i = 0; i < k; i++ )  

    {  

        feat = CV_GET_SEQ_ELEM( struct feature, features, i );  

        ddata = feat_detection_data( feat );  

        //計算二維方向直方圖  

        hist = descr_hist( gauss_pyr[ddata->octv][ddata->intvl], ddata->r,  

            ddata->c, feat->ori, ddata->scl_octv, d, n );  

        //將二維方向直方圖轉換爲特徵描述子  

        hist_to_descr( hist, d, n, feat );  

        release_descr_hist( &hist, d );  

    }  

}

*計算二維方向直方圖


static double*** descr_hist( IplImage* img, int r, int c, double ori,  

                             double scl, int d, int n )  

{  

    double*** hist;  

    double cos_t, sin_t, hist_width, exp_denom, r_rot, c_rot, grad_mag,  

        grad_ori, w, rbin, cbin, obin, bins_per_rad, PI2 = 2.0 * CV_PI;  

    int radius, i, j;  

    hist = static_cast<double ***>( calloc( d, sizeof( double** ) ) );  

    for( i = 0; i < d; i++ )  

    {  

        hist[i] =static_cast<double **>( calloc( d, sizeof( double* ) ) );  

        for( j = 0; j < d; j++ )  

            hist[i][j] = static_cast<double *>( calloc( n, sizeof( double ) ) );  

    }  

    cos_t = cos( ori );  

    sin_t = sin( ori );  

    bins_per_rad = n / PI2;  

    exp_denom = d * d * 0.5;  

    hist_width = SIFT_DESCR_SCL_FCTR * scl;  

    radius = hist_width * sqrt(2.0) * ( d + 1.0 ) * 0.5 + 0.5;  

    for( i = -radius; i <= radius; i++ )  

        for( j = -radius; j <= radius; j++ )  

        {  

            /* 

            即將座標移至關鍵點主方向 

            計算採用的直方圖數組中相對於方向旋轉的座標 

            Calculate sample's histogram array coords rotated relative to ori. 

            Subtract 0.5 so samples that fall e.g. in the center of row 1 (i.e. 

            r_rot = 1.5) have full weight placed in row 1 after interpolation. 

            */  

            c_rot = ( j * cos_t - i * sin_t ) / hist_width;  

            r_rot = ( j * sin_t + i * cos_t ) / hist_width;  

            rbin = r_rot + d / 2 - 0.5;  

            cbin = c_rot + d / 2 - 0.5;  

            if( rbin > -1.0  &&  rbin < d  &&  cbin > -1.0  &&  cbin < d )  

                if( calc_grad_mag_ori( img, r + i, c + j, &grad_mag, &grad_ori ))  

                {  

                    grad_ori -= ori;  

                    while( grad_ori < 0.0 )  

                        grad_ori += PI2;  

                    while( grad_ori >= PI2 )  

                        grad_ori -= PI2;  

                    obin = grad_ori * bins_per_rad;  

                    w = exp( -(c_rot * c_rot + r_rot * r_rot) / exp_denom );  

                    interp_hist_entry( hist, rbin, cbin, obin, grad_mag * w, d, n );  

                }  

        }  

    return hist;  

}

*插入一個entry進入到方向直方圖中從而形成特徵描述子

這個，我也不怎麼明白。。。


static void interp_hist_entry( double*** hist, double rbin, double cbin,  

                               double obin, double mag, int d, int n )  

{  

    double d_r, d_c, d_o, v_r, v_c, v_o;  

    double** row, * h;  

    int r0, c0, o0, rb, cb, ob, r, c, o;  

    r0 = cvFloor( rbin );  

    c0 = cvFloor( cbin );  

    o0 = cvFloor( obin );  

    d_r = rbin - r0;  

    d_c = cbin - c0;  

    d_o = obin - o0;  

    /* 

    The entry is distributed into up to 8 bins.  Each entry into a bin 

    is multiplied by a weight of 1 - d for each dimension, where d is the 

    distance from the center value of the bin measured in bin units. 

    */  

    for( r = 0; r <= 1; r++ )  

    {  

        rb = r0 + r;  

        if( rb >= 0  &&  rb < d )  

        {  

            v_r = mag * ( ( r == 0 )? 1.0 - d_r : d_r );  

            row = hist[rb];  

            for( c = 0; c <= 1; c++ )  

            {  

                cb = c0 + c;  

                if( cb >= 0  &&  cb < d )  

                {  

                    v_c = v_r * ( ( c == 0 )? 1.0 - d_c : d_c );  

                    h = row[cb];  

                    for( o = 0; o <= 1; o++ )  

                    {  

                        ob = ( o0 + o ) % n;  

                        v_o = v_c * ( ( o == 0 )? 1.0 - d_o : d_o );  

                        h[ob] += v_o;  

                    }  

                }  

            }  

        }  

    }  

}

*將二維直方圖轉換爲特徵描述子

實際上是歸一化描述子和轉換爲整數


static void hist_to_descr( double*** hist, int d, int n, struct feature* feat )  

{  

    int int_val, i, r, c, o, k = 0;  

    for( r = 0; r < d; r++ )  

        for( c = 0; c < d; c++ )  

            for( o = 0; o < n; o++ )  

                feat->descr[k++] = hist[r][c][o];  

    feat->d = k;  

    normalize_descr( feat );  

    for( i = 0; i < k; i++ )  

        if( feat->descr[i] > SIFT_DESCR_MAG_THR )  

            feat->descr[i] = SIFT_DESCR_MAG_THR;  

    normalize_descr( feat );  

    /* convert floating-point descriptor to integer valued descriptor */  

    for( i = 0; i < k; i++ )  

    {  

        int_val = SIFT_INT_DESCR_FCTR * feat->descr[i];  

        feat->descr[i] = MIN( 255, int_val );  

    }  

}

*歸一化描述子


static void normalize_descr( struct feature* feat )  

{  

    double cur, len_inv, len_sq = 0.0;  

    int i, d = feat->d;//爲描述子長度128維  

    //如何進行歸一化特徵描述子來降低對光照的影響  

    //主要就是將每一個特徵的平方求和，然後開方，然後去其倒數，然後乘以每一個特徵描述子的梯度值，這樣就得到了歸一化的特徵描述子  

    for( i = 0; i < d; i++ )  

    {  

        cur = feat->descr[i];  

        len_sq += cur*cur;  

    }  

    len_inv = 1.0 / sqrt( len_sq );  

    for( i = 0; i < d; i++ )  

        feat->descr[i] *= len_inv;  

}

下面給出存儲在文件中的SIFT特徵分析：

下面給出特徵文件的部分特徵


114  128    

101.350424   136.130888   40.169873   0.771085  orientation  

 0 0 0 0 3 1 0 0 2 23 46 15 18 3 0 0 6 20 13 1  

 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 88 36 0 0  

 81 95 57 47 185 114 2 7 185 155 19 6 19 6 1 22 22 0 0 0  

 0 0 0 1 0 0 0 0 37 8 0 0 91 12 0 1 185 144 11 35  

 185 50 0 0 23 28 8 95 40 1 0 0 0 0 0 4 0 0 0 0  

 0 0 0 0 11 5 0 0 4 2 0 0 49 20 0 0 1 0 0 1  

 0 0 0 0 0 0 0 0  

127.871534 71.100559 15.768594 -2.024589  

 1 2 2 72 63 12 1 1 133 93 1 4 2 7 4 44 133 115 0 0  

 0 0 0 20 9 4 0 0 0 0 0 0 23 0 1 9 107 20 1 8  

 133 5 0 0 0 1 5 133 132 14 0 0 0 0 8 133 14 1 0 0  

 0 0 0 8 26 0 0 0 126 37 8 22 133 47 0 0 0 0 3 52  

 131 41 0 0 0 0 2 36 1 0 0 0 0 0 0 2 2 0 0 0  

 34 105 80 24 111 15 0 0 0 1 55 66 79 21 0 0 0 0 0 5  

 0 0 0 0 0 0 0 0

下面給出說明：


114 特徵數目 128  向量維度  

關鍵點座標  

101.350424  y座標  

136.130888  x座標  

40.169873  scale 尺度  

0.771085  orientation  關鍵點的梯度方向  

16個種子點的8個方向向量的信息共128個信息  

 0 0 0 0 3 1 0 0 2 23 46 15 18 3 0 0 6 20 13 1  

 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 88 36 0 0  

 81 95 57 47 185 114 2 7 185 155 19 6 19 6 1 22 22 0 0 0  

 0 0 0 1 0 0 0 0 37 8 0 0 91 12 0 1 185 144 11 35  

 185 50 0 0 23 28 8 95 40 1 0 0 0 0 0 4 0 0 0 0  

 0 0 0 0 11 5 0 0 4 2 0 0 49 20 0 0 1 0 0 1  

 0 0 0 0 0 0 0 0  

下一組關鍵點向量  

127.871534 y座標  

71.100559 x座標  

15.768594 尺度=sigma*2^(高斯模糊)  

-2.024589 梯度方向m(x,y)。。。。等等

最後附上一個Rob Hess的源碼下載地址吧

http://blogs.oregonstate.edu/hess/code/sift/

下面給出我的畢業設計：基於SIFT算法的圖像僞造盲檢測的初步實現效果，後續還有待改進。。。。

SIFT算法實現理解及註釋詳解(基於Rob Hess源碼)

使用cvCreatVideoWriter和cvWriteFrame將圖片或數據幀寫入到AVI中

cvRectangle的用法

cvFindContours的用法

OpenCV簡介

cvConvert的用法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結