離散K-L變化是特徵提取中常用的一種方法,通過正交矩陣將原來高維的數據降維數據壓縮。
優點:
1.離散K-L變化可用於任意概率密度函數分佈
2.得到的新數據之間是不相關的
3.通過最小均方誤差得到的新的分佈接近原始分佈
缺點:
1.類別越多,計算結果越差。
2.需要計算自相關矩陣,如果樣本數目過少得到的結果比較粗糙。
1.原理:
原始模式可以展開爲若干個正交向量的線性組合。即
相應的我們可以得到:
爲了起到數據壓縮的作用,我們僅僅選用正交向量的前m個向量來估計原始模式,略去的後若干項係數用常數b代替,可以得到:
定義均方誤差爲
要使最小,對b選擇應滿足:
此時的誤差爲:
其中,Cx爲x的協方差矩陣。
由於爲正交函數,則誤差實際爲從m+1項開始的,所有特徵值的加和!即
則我們選取較大的特徵值用於估計原始分佈,留較小的特徵值來產生誤差,就能取得較好的結果!
至此問題變爲,如何確定正交向量,使得誤差最小了。
爲了找到滿足條件的變換矩陣U,令:
因爲新向量y各分量之間是相互獨立的,因此有:
又從自相關矩陣的定義,有:
而Rx是對稱矩陣,因此它的特徵向量是相互正交的。如果將U的列向量取爲Rx的特徵向量,這時Ry可以轉化爲對角矩陣:
其中∧是對角矩陣,對角線元素是Rx的特徵值λi,i=1,2,...,n
由此可以確定變換矩陣A,它的列向量就是特徵向量,這些特徵向量之間是相互正交的。
利用變換矩陣A對原輸入向量x進行變換,獲得新向量y的過程就是K-L變換。