K-L變換的理論知識
K-L變換是除了PCA外的另一種常用的特徵提取方法,它有很多種形式,最基本的形式跟PCA類似,它跟PCA的不同在於,PCA是一種無監督的特徵變換,而K-L變換能夠考慮到不同的分類信息,實現有監督的特徵提取。
根據隨機過程中的KL展開理論,將隨機過程描述爲無數個正交函數的線性組合,而在模式識別問題中,通常可以將一個樣本看成是隨機向量的某一次實現結果,所以假設有一d維隨機向量x,可以寫成一組正交基的線性組合,且它們的模爲1:
對上式變形得到:
(初見K-L變換,通常需要先對樣本進行零均值化或平移)
假設有用信息就集中在其中的q維上,那麼現在我們來嘗試用着q維去近似x:
近似前後樣本向量的差向量爲:
考查上述差向量的均方誤差(MSE)爲:
其中,變換矩陣是原樣本向量x的二階矩陣(注意,這裏還可以是其他矩陣,如協方差矩陣),可以與PCA中比較一下,形式大致相同,但在PCA中使用的變換矩陣是協方差矩陣;
我們的目的是最小化上述MSE,同PCA中的求解方法,得到下面拉格朗日目標函數:
對sigma求導並令其等於零,有:
看到熟悉的面孔了,哈哈,就是的特徵值,所以上面要求的均方誤差就解開了神祕的面紗:
分析到這裏,應該不難看出,簡直跟PCA就是一對雙胞胎啊,太像了有木有,其實當K-L變換的變換矩陣爲協方差矩陣時,K-L變換就變成了PCA。
回到使用q維逼近樣本向量x的問題上來,通過上面的分析我們知道了,如果想用q維來表示樣本向量並使MSE最小化,合理的做法就是:把變換矩陣的特徵值從大到小排列,然後選擇前q個特徵值對應的特徵向量就行,此時截斷誤差能夠保證最小,其中中的前q個正交向量就組成了新的特徵空間,而原樣本向量x在這個新特徵空間上的展開係數yi就組成了新的特徵向量,這種變換就叫做K-L變換,對於它的其他不同的形式,主要是基於變換矩陣的具體形式。
可以發現,得到這q個新特徵與PCA中的d個主成分是類似的,當對原特徵x進行中心化時,K-L變換等價於PCA;
K-L變換的幾個重要性質
1.變換後得到的新特徵滿足零均值:
證明:
設有如下K-L變換:,其中矩陣A是變換核矩陣;
對X的變換結果Y球其均值:
2.K-L變換是一種正交變換;
3.K-L變換的新特徵彼此之間不相關;
4.K-L變換的新特徵向量的二階矩陣是對角陣,且對角線元素就是原特徵的二階矩陣的特徵值;
證明:
5.K-L變換是信號的最佳壓縮表示,用q維新特徵表示原樣本特徵帶來的誤差在所有q維正交座標變換中最小;
6.用K-L座標系來表示原數據,意味着熵最小,即樣本的方差信息最大程度的集中在較少的維數上;
K-L變換與PCA的聯繫與區別
聯繫:
都屬於正交變換;
當對原特徵x進行中心化時(即變換矩陣爲協方差矩陣),K-L變換等價於PCA;
PCA是離散K-L變換;
都可以實現降維變換;
區別:
K-L變換可以實現有監督的特徵提取,但是PCA的變換是一種無監督的;
在含義上,K-L變換較廣義,PCA較狹義;
K-L變換可以處理連續和離散情況,而PCA只針對離散情況;
K-L變換的變換矩陣可以是很多種,如二階矩陣、協方差矩陣(總體散佈矩陣)等,或者說自相關矩陣,而PCA的變換矩陣就是協方差矩陣;
但是,在一些地方就認爲兩者是沒什麼區別的,因爲實際應用中不管是協方差矩陣,還是自相關矩陣,其實只是差了個對樣本進行均值的平移,但是在PCA中這種平移並不會影響主成分的方向,所以PCA中也通常會先對樣本平移,這樣看來自相關矩陣就變成了協方差矩陣。
協方差矩陣:
自相關矩陣:
其中,是共軛轉置矩陣,當爲實矩陣時,等價於轉置矩陣;
協方差矩陣和自相關矩陣的關係:
參考:Wiki