學習OpenCV——KNN算法

轉自:http://blog.csdn.net/lyflower/article/details/1728642

 

文本分類中KNN算法,該方法的思路非常簡單直觀:如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

   KNN方法雖然從原理上也依賴於極限定理,但在類別決策時,只與極少量的相鄰樣本有關。因此,採用這種方法可以較好地避免樣本的不平衡問題。另外,由於KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說, KNN方法較其他方法更爲適合。

   該方法的不足之處是計算量較大,因爲對每一個待分類的文本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯,事先去除對分類作用不大的樣本。另外還有一種Reverse KNN法,能降低KNN算法的計算複雜度,提高分類的效率。

   該算法比較適用於樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域採用這種算法比較容易產生誤分。

k近鄰分類器具有良好的文本分類效果,對仿真實驗結果的統計分析表明:作爲文本分類器,k近鄰僅次於支持向量機,明顯優於線性最小二乘擬合、樸素貝葉斯和神經網絡。

重點:

1:特徵降維(一般用CHI方法)

2:截尾算法(三種截尾算法)

3:降低計算量

演示代碼:

  1. #include "ml.h"   
  2. #include "highgui.h"     
  3. int main( int argc, char** argv )   
  4. {       
  5.     const int K = 10;       
  6.     int i, j, k, accuracy;       
  7.     float response;       
  8.     int train_sample_count = 100;       
  9.     CvRNG rng_state = cvRNG(-1);//初始化隨機數生成器狀態      
  10.     CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );       
  11.     CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );       
  12.     IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );       
  13.     float _sample[2];       
  14.     CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );       
  15.     cvZero( img );    
  16.   
  17.     CvMat trainData1, trainData2, trainClasses1, trainClasses2;      
  18.   
  19.     // form the training samples       
  20.     cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回數組的一行或在一定跨度內的行      
  21.     cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用隨機數填充數組並更新 RNG 狀態       
  22.   
  23.     cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );       
  24.     cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );    
  25.   
  26.     cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );       
  27.     cvSet( &trainClasses1, cvScalar(1) );       
  28.   
  29.     cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );       
  30.     cvSet( &trainClasses2, cvScalar(2) );     
  31.   
  32.     // learn classifier       
  33.     CvKNearest knn( trainData, trainClasses, 0, false, K );      
  34.     CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);    
  35.   
  36.     for( i = 0; i < img->height; i++ )       
  37.     {           
  38.         for( j = 0; j < img->width; j++ )           
  39.         {               
  40.             sample.data.fl[0] = (float)j;               
  41.             sample.data.fl[1] = (float)i;     
  42.   
  43.             // estimates the response and get the neighbors' labels               
  44.             response = knn.find_nearest(&sample,K,0,0,nearests,0);        
  45.   
  46.             // compute the number of neighbors representing the majority               
  47.             for( k = 0, accuracy = 0; k < K; k++ )               
  48.             {                   
  49.                 if( nearests->data.fl[k] == response)                       
  50.                     accuracy++;               
  51.             }     
  52.   
  53.             // highlight the pixel depending on the accuracy (or confidence)               
  54.             cvSet2D( img, i, j, response == 1 ?                   
  55.                 (accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :                   
  56.                 (accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );           
  57.         }       
  58.     }         
  59.       
  60.     // display the original training samples       
  61.     for( i = 0; i < train_sample_count/2; i++ )       
  62.     {           
  63.         CvPoint pt;           
  64.         pt.x = cvRound(trainData1.data.fl[i*2]);           
  65.         pt.y = cvRound(trainData1.data.fl[i*2+1]);           
  66.         cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );    
  67.   
  68.         pt.x = cvRound(trainData2.data.fl[i*2]);           
  69.         pt.y = cvRound(trainData2.data.fl[i*2+1]);           
  70.         cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );       
  71.     }        
  72.     cvNamedWindow( "classifier result", 1 );       
  73.     cvShowImage( "classifier result", img );       
  74.     cvWaitKey(0);        
  75.     cvReleaseMat( &trainClasses );       
  76.     cvReleaseMat( &trainData );       
  77.     return 0;   
  78. }   

 

詳細說明:http://www.cnblogs.com/xiangshancuizhu/archive/2011/08/06/2129355.html
改進的KNN:http://www.cnblogs.com/xiangshancuizhu/archive/2011/11/11/2245373.html
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章