學習OpenCV——KNN算法

轉自：http://blog.csdn.net/lyflower/article/details/1728642

文本分類中KNN算法，該方法的思路非常簡單直觀：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

KNN方法雖然從原理上也依賴於極限定理，但在類別決策時，只與極少量的相鄰樣本有關。因此，採用這種方法可以較好地避免樣本的不平衡問題。另外，由於KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對於類域的交叉或重疊較多的待分樣本集來說， KNN方法較其他方法更爲適合。

該方法的不足之處是計算量較大，因爲對每一個待分類的文本都要計算它到全體已知樣本的距離，才能求得它的K個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本。另外還有一種Reverse KNN法，能降低KNN算法的計算複雜度，提高分類的效率。

該算法比較適用於樣本容量比較大的類域的自動分類，而那些樣本容量較小的類域採用這種算法比較容易產生誤分。

k近鄰分類器具有良好的文本分類效果，對仿真實驗結果的統計分析表明:作爲文本分類器，k近鄰僅次於支持向量機，明顯優於線性最小二乘擬合、樸素貝葉斯和神經網絡。

重點：

1：特徵降維（一般用CHI方法）

2：截尾算法（三種截尾算法）

3：降低計算量

演示代碼：

[cpp]view
plaincopyprint?

#include "ml.h"   

#include "highgui.h"     

int main( int argc, char** argv )   

{       

    const int K = 10;       

    int i, j, k, accuracy;       

    float response;       

    int train_sample_count = 100;       

    CvRNG rng_state = cvRNG(-1);//初始化隨機數生成器狀態      

    CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );       

    CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );       

    IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );       

    float _sample[2];       

    CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );       

    cvZero( img );    

    CvMat trainData1, trainData2, trainClasses1, trainClasses2;      

    // form the training samples       

    cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回數組的一行或在一定跨度內的行      

    cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用隨機數填充數組並更新 RNG 狀態       

    cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );       

    cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );    

    cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );       

    cvSet( &trainClasses1, cvScalar(1) );       

    cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );       

    cvSet( &trainClasses2, cvScalar(2) );     

    // learn classifier       

    CvKNearest knn( trainData, trainClasses, 0, false, K );      

    CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);    

    for( i = 0; i < img->height; i++ )       

    {           

        for( j = 0; j < img->width; j++ )           

        {               

            sample.data.fl[0] = (float)j;               

            sample.data.fl[1] = (float)i;     

            // estimates the response and get the neighbors' labels               

            response = knn.find_nearest(&sample,K,0,0,nearests,0);        

            // compute the number of neighbors representing the majority               

            for( k = 0, accuracy = 0; k < K; k++ )               

            {                   

                if( nearests->data.fl[k] == response)                       

                    accuracy++;               

            }     

            // highlight the pixel depending on the accuracy (or confidence)               

            cvSet2D( img, i, j, response == 1 ?                   

                (accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :                   

                (accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );           

        }       

    }         

    // display the original training samples       

    for( i = 0; i < train_sample_count/2; i++ )       

    {           

        CvPoint pt;           

        pt.x = cvRound(trainData1.data.fl[i*2]);           

        pt.y = cvRound(trainData1.data.fl[i*2+1]);           

        cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );    

        pt.x = cvRound(trainData2.data.fl[i*2]);           

        pt.y = cvRound(trainData2.data.fl[i*2+1]);           

        cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );       

    }        

    cvNamedWindow( "classifier result", 1 );       

    cvShowImage( "classifier result", img );       

    cvWaitKey(0);        

    cvReleaseMat( &trainClasses );       

    cvReleaseMat( &trainData );       

    return 0;   

}

詳細說明：http://www.cnblogs.com/xiangshancuizhu/archive/2011/08/06/2129355.html
改進的KNN：http://www.cnblogs.com/xiangshancuizhu/archive/2011/11/11/2245373.html

學習OpenCV——KNN算法

RAII與Pimpl

Fedora 18下samba服務器簡單配置

如何將opencv的處理結果保存由matlab分析

機器學習&數據挖掘筆記_15（關於凸優化的一些簡單概念）

CMAKE的使用

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結