模式識別(Pattern Recognition)學習筆記(三十五)-- K-L變換與PCA

K-L變換的理論知識

K-L變換是除了PCA外的另一種常用的特徵提取方法,它有很多種形式,最基本的形式跟PCA類似,它跟PCA的不同在於,PCA是一種無監督的特徵變換,而K-L變換能夠考慮到不同的分類信息,實現有監督的特徵提取。

根據隨機過程中的KL展開理論,將隨機過程描述爲無數個正交函數的線性組合,而在模式識別問題中,通常可以將一個樣本看成是隨機向量的某一次實現結果,所以假設有一d維隨機向量x,可以寫成一組正交基的線性組合,且它們的模爲1:


對上式變形得到:

                           (初見K-L變換,通常需要先對樣本進行零均值化或平移

假設有用信息就集中在其中的q維上,那麼現在我們來嘗試用着q維去近似x:


近似前後樣本向量的差向量爲:

考查上述差向量的均方誤差(MSE)爲:

其中,變換矩陣是原樣本向量x的二階矩陣(注意,這裏還可以是其他矩陣,如協方差矩陣),可以與PCA中比較一下,形式大致相同,但在PCA中使用的變換矩陣是協方差矩陣;

我們的目的是最小化上述MSE,同PCA中的求解方法,得到下面拉格朗日目標函數:


對sigma求導並令其等於零,有:


看到熟悉的面孔了,哈哈,就是的特徵值,所以上面要求的均方誤差就解開了神祕的面紗:


分析到這裏,應該不難看出,簡直跟PCA就是一對雙胞胎啊,太像了有木有,其實當K-L變換的變換矩陣爲協方差矩陣時,K-L變換就變成了PCA。

回到使用q維逼近樣本向量x的問題上來,通過上面的分析我們知道了,如果想用q維來表示樣本向量並使MSE最小化,合理的做法就是:把變換矩陣的特徵值從大到小排列,然後選擇前q個特徵值對應的特徵向量就行,此時截斷誤差能夠保證最小,其中中的前q個正交向量就組成了新的特徵空間,而原樣本向量x在這個新特徵空間上的展開係數yi就組成了新的特徵向量,這種變換就叫做K-L變換,對於它的其他不同的形式,主要是基於變換矩陣的具體形式。

可以發現,得到這q個新特徵與PCA中的d個主成分是類似的,當對原特徵x進行中心化時,K-L變換等價於PCA;

K-L變換的幾個重要性質

1.變換後得到的新特徵滿足零均值:

證明:

設有如下K-L變換:,其中矩陣A是變換核矩陣;

對X的變換結果Y球其均值:


2.K-L變換是一種正交變換;

3.K-L變換的新特徵彼此之間不相關;

4.K-L變換的新特徵向量的二階矩陣是對角陣,且對角線元素就是原特徵的二階矩陣的特徵值;

證明:



5.K-L變換是信號的最佳壓縮表示,用q維新特徵表示原樣本特徵帶來的誤差在所有q維正交座標變換中最小;

6.用K-L座標系來表示原數據,意味着熵最小,即樣本的方差信息最大程度的集中在較少的維數上;

K-L變換與PCA的聯繫與區別

聯繫:

都屬於正交變換;

當對原特徵x進行中心化時(即變換矩陣爲協方差矩陣),K-L變換等價於PCA;

PCA是離散K-L變換;

都可以實現降維變換;

區別:

K-L變換可以實現有監督的特徵提取,但是PCA的變換是一種無監督的;

在含義上,K-L變換較廣義,PCA較狹義;

K-L變換可以處理連續和離散情況,而PCA只針對離散情況;

K-L變換的變換矩陣可以是很多種,如二階矩陣、協方差矩陣(總體散佈矩陣)等,或者說自相關矩陣,而PCA的變換矩陣就是協方差矩陣;

但是,在一些地方就認爲兩者是沒什麼區別的,因爲實際應用中不管是協方差矩陣,還是自相關矩陣,其實只是差了個對樣本進行均值的平移,但是在PCA中這種平移並不會影響主成分的方向,所以PCA中也通常會先對樣本平移,這樣看來自相關矩陣就變成了協方差矩陣。


協方差矩陣:


自相關矩陣:


其中,是共軛轉置矩陣,當爲實矩陣時,等價於轉置矩陣;

協方差矩陣和自相關矩陣的關係:



參考:Wiki





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章