幾種常見模式識別算法整理和總結

這學期選了門模式識別的課。發現最常見的一種情況就是,書上寫的老師ppt上寫的都看不懂,然後繞了一大圈去自己查資料理解,回頭看看發現,Ah-ha,原來本質的原理那麼簡單,自己一開始只不過被那些看似formidable的細節嚇到了。所以在這裏把自己所學的一些點記錄下來,供備忘,也供參考。

 

 

1. K-Nearest Neighbor

K-NN可以說是一種最直接的用來分類未知數據的方法。基本通過下面這張圖跟文字說明就可以明白K-NN是幹什麼的

 

knn

簡單來說,K-NN可以看成:有那麼一堆你已經知道分類的數據,然後當一個新數據進入的時候,就開始跟訓練數據裏的每個點求距離,然後挑離這個訓練數據最近的K個點看看這幾個點屬於什麼類型,然後用少數服從多數的原則,給新數據歸類。一個比較好的介紹k-NN的課件可以見下面鏈接,圖文並茂,我當時一看就懂了

http://courses.cs.tamu.edu/rgutier/cs790_w02/l8.pdf

 

實際上K-NN本身的運算量是相當大的,因爲數據的維數往往不止2維,而且訓練數據庫越大,所求的樣本間距離就越多。就拿我們course project的人臉檢測來說,輸入向量的維數是1024維(32x32的圖,當然我覺得這種方法比較silly),訓練數據有上千個,所以每次求距離(這裏用的是歐式距離,就是我們最常用的平方和開根號求距法) 這樣每個點的歸類都要花上上百萬次的計算。所以現在比較常用的一種方法就是kd-tree。也就是把整個輸入空間劃分成很多很多小子區域,然後根據臨近的原則把它們組織爲樹形結構。然後搜索最近K個點的時候就不用全盤比較而只要比較臨近幾個子區域的訓練數據就行了。kd-tree的一個比較好的課件可以見下面鏈接:

http://www.inf.ed.ac.uk/teaching/courses/inf2b/learnnotes/inf2b-learn06-lec.pdf

當然,kd-tree有一個問題就是當輸入維數跟訓練數據數量很接近時就很難優化了。所以用PCA(稍後會介紹)降維大多數情況下是很有必要的

 

2. Bayes Classifier
貝葉斯方法一篇比較科普的中文介紹可以見pongba的平凡而神奇的貝葉斯方法: http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/,實際實現一個貝葉斯分類器之後再回頭看這篇文章,感覺就很不一樣。
在模式識別的實際應用中,貝葉斯方法絕非就是post正比於prior*likelihood這個公式這麼簡單,一般而言我們都會用正態分佈擬合likelihood來實現。
用正態分佈擬合是什麼意思呢?貝葉斯方法式子的右邊有兩個量,一個是prior先驗概率,這個求起來很簡單,就是一大堆數據中求某一類數據佔的百分比就可以了,比如300個一堆的數據中A類數據佔100個,那麼A的先驗概率就是1/3。第二個就是likelihood,likelihood可以這麼理解:對於每一類的訓練數據,我們都用一個multivariate正態分佈來擬合它們(即通過求得某一分類訓練數據的平均值和協方差矩陣來擬合出一個正態分佈),然後當進入一個新的測試數據之後,就分別求取這個數據點在每個類別的正態分佈中的大小,然後用這個值乘以原先的prior便是所要求得的後驗概率post了。
貝葉斯公式中還有一個evidence,對於初學者來說,可能會一下沒法理解爲什麼在實際運算中它不見了。實則上,evidence只是一個讓最後post歸一化的東西,而在模式分類中,我們只需要比較不同類別間post的大小,歸一化反而增加了它的運算量。當然,在有的地方,這個evidence絕對不能省,比如後文提到的GMM中,需要用到EM迭代,這時候如果不用evidence將post歸一化,後果就會很可怕。
Bayes方法一個不錯的參考網頁可見下面鏈接:


3. Principle Component Analysis
PCA,譯爲主元分析或者主成份分析,是一種很好的簡化數據的方法,也是PR中常見到不能再常見的算法之一。CSDN上有一篇很不錯的中文博客介紹PCA,《主元分析(PCA)理論分析及應用》,可以見下面鏈接:
對於我而言,主元分析最大的意義就是讓我明白了線性代數中特徵值跟特徵向量究竟代表什麼,從而讓我進一步感受到了線性代數的博大精深魅力無窮。- -|||

PCA簡而言之就是根據輸入數據的分佈給輸入數據重新找到更能描述這組數據的正交的座標軸,比如下面一幅圖,對於那個橢圓狀的分佈,最方便表示這個分佈的座標軸肯定是橢圓的長軸短軸而不是原來的x y。
PCA
那麼如何求出這個長軸和短軸呢?於是線性代數就來了:我們求出這堆數據的協方差矩陣(關於什麼是協方差矩陣,詳見本節最後附的鏈接),然後再求出這個協方差矩陣的特徵值和特徵向量,對應最大特徵值的那個特徵向量的方向就是長軸(也就是主元)的方向,次大特徵值的就是第二主元的方向,以此類推。

關於PCA,推薦兩個不錯的tutorial:
(1) A tutorial on Principle Component Analysis從最基本的數學原理到應用都有,讓我在被老師的講課弄暈之後瞬間開悟的tutorial:
(2) 裏面有一個很生動的實現PCA的例子,還有告訴你PCA跟SVD是什麼關係的,對編程實現的幫助很大(當然大多數情況下都不用自己編了):

 http://www.math.ucsd.edu/~gptesler/283/pca_07-handout.pdf




 

4. Linear Discriminant Analysis

LDA,基本和PCA是一對雙生子,它們之間的區別就是PCA是一種unsupervised的映射方法而LDA是一種supervised映射方法,這一點可以從下圖中一個2D的例子簡單看出

lda

圖的左邊是PCA,它所作的只是將整組數據整體映射到最方便表示這組數據的座標軸上,映射時沒有利用任何數據內部的分類信息因此,雖然做了PCA後,整組數據在表示上更加方便(降低了維數並將信息損失降到最低),但在分類上也許會變得更加困難圖的右邊是LDA,可以明顯看出,在增加了分類信息之後,兩組輸入映射到了另外一個座標軸上,有了這樣一個映射,兩組數據之間的就變得更易區分了(在低維上就可以區分,減少了很大的運算量)


在實際應用中,最常用的一種LDA方法叫作Fisher Linear Discriminant,其簡要原理就是求取一個線性變換,是的樣本數據中between classes scatter matrix(不同類數據間的協方差矩陣)within classes scatter matrix(同一類數據內部的各個數據間協方差矩陣)之比的達到最大。關於Fisher LDA更具體的內容可以見下面課件,寫的很不錯~

http://www.csd.uwo.ca/~olga/Courses//CS434a_541a//Lecture8.pdf 


 

 

5. Non-negative Matrix Factorization

NMF,中文譯爲非負矩陣分解。一篇比較不錯的NMF中文介紹文可以見下面一篇博文的鏈接,《非負矩陣分解:數學的奇妙力量》

http://chnfyn.blog.163.com/blog/static/26954632200751625243295/

 

這篇博文很大概地介紹了一下NMF的來龍去脈(當然裏面那幅圖是錯的。。。),當然如果你想更深入地瞭解NMF的話,可以參考Lee和Seung當年發表在Nature上面的NMF原文,"Learning the parts of objects by non-negative matrix factorization"

http://www.seas.upenn.edu/~ddlee/Papers/nmf.pdf

讀了這篇論文,基本其他任何介紹NMF基本方法的材料都是浮雲了。

 

NMF,簡而言之,就是給定一個非負矩陣V,我們尋找另外兩個非負矩陣W和H來分解它,使得後W和H的乘積是V。論文中所提到的最簡單的方法,就是根據最小化||V-WH||的要求,通過Gradient Discent推導出一個update rule,然後再對其中的每個元素進行迭代,最後得到最小值,具體的update rule見下圖,注意其中Wia等帶下標的符號表示的是矩陣裏的元素,而非代表整個矩陣,當年在這個上面繞了好久。。

nmf

當然上面所提的方法只是其中一種而已,在http://spinner.cofc.edu/~langvillea/NISS-NMF.pdf中有更多詳細方法的介紹。

相比於PCA、LDA,NMF有個明顯的好處就是它的非負,因爲爲在很多情況下帶有負號的運算算起來都不這麼方便,但是它也有一個問題就是NMF分解出來的結果不像PCA和LDA一樣是恆定的。



 

6. Gaussian Mixture Model

GMM高斯混合模型粗看上去跟上文所提的貝葉斯分類器有點類似,但兩者的方法有很大的不同。在貝葉斯分類器中,我們已經事先知道了訓練數據(training set)的分類信息,因此只要根據對應的均值和協方差矩陣擬合一個高斯分佈即可。而在GMM中,我們除了數據的信息,對數據的分類一無所知,因此,在運算時我們不僅需要估算每個數據的分類,還要估算這些估算後數據分類的均值和協方差矩陣。。。也就是說如果有1000個訓練數據10租分類的話,需要求的未知數是1000+10+10(用未知數表示未必確切,確切的說是1000個1x10標誌向量,10個與訓練數據同維的平均向量,10個與訓練數據同維的方陣)。。。反正想想都是很頭大的事情。。。那麼這個問題是怎麼解決的呢?

這裏用的是一種叫EM迭代的方法。


具體使用方法可以參考http://neural.cs.nthu.edu.tw/jang/books/dcpr/doc/08gmm.pdf 這份臺灣清華大學的課件,寫的真是相當的贊,實現代碼的話可以參考:

1. 倩倩的博客http://www.cnblogs.com/jill_new/archive/2010/12/01/1893851.html 和

2. http://www.cs.ru.nl/~ali/EM.m

 

當然 Matlab裏一般也會自帶GMM工具箱,其用法可以參考下面鏈接:

http://www.mathworks.com/help/toolbox/stats/gmdistribution.fit.html

發佈了20 篇原創文章 · 獲贊 13 · 訪問量 27萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章