PCA 原理
1、PCA 原理推導
假設有 M 個樣本 x1,x2,...,xm ,每個樣本點 xi 含有 N 個特徵,則每個樣本數據可以表示爲: xi=(xi(1),(xi(2),...,(xi(n)),整體樣本數據在 N 維特徵空間的原始座標系爲 I=(i1,i2,...,in), I 是一組標準正交基,即有如下性質:
∣∣is∣∣2=isT⋅it= 1 0 , s̸=t
樣本點 xi 在原始座標系中的表示爲:
xi=(i1,i2,...,in)⋅⎝⎜⎜⎜⎜⎛xi(1)xi(2)⋮xi(n)⎠⎟⎟⎟⎟⎞ , i=1,2,3...,m
假設進行線性變換之後得到的新的座標系爲 J=(j1,j2,...,jn′), J 同樣是一組標準正交基,即滿足上述正交基的性質。則樣本點 xi 在新的座標系中的近似表示爲:
xi∼=(j1,j2,...,jn′)⋅⎝⎜⎜⎜⎜⎛zi(1)zi(2)⋮zi(n′)⎠⎟⎟⎟⎟⎞ , i=1,2,3...,m
根據正交基的性質, js 可以等價於:
js=(i1,i2,...,in)⋅⎝⎜⎜⎜⎛js⋅i1js⋅i2⋮js⋅in⎠⎟⎟⎟⎞ , s=1,2,3...,m′
令:
ws=⎝⎜⎜⎜⎛js⋅i1js⋅i2⋮js⋅in⎠⎟⎟⎟⎞ , s=1,2,3...,m′
則 ws 是一個新的基向量,其各分量就是基向量 js 在原始座標系 (i1,i2,...,in) 中的投影。所以,js 可以寫爲:
js=(i1,i2,...,in)⋅ws , s=1,2,...,n′
根據正交基性質,有 ∣∣ws∣∣2 = 1 , wsT⋅wt= 0 , s̸=t。
類似的有 w1,w2,...,wn′,將其寫成矩陣形式爲:
W=[w1,w2,...,wN′]=⎝⎜⎜⎜⎛j1⋅i1j1⋅i2⋮j1⋅inj2⋅i1j2⋅i2⋮j2⋅in⋯⋯⋱⋯jn′⋅i1jn′⋅i2⋮jn′⋅in⎠⎟⎟⎟⎞
則 W 就稱爲座標變換矩陣,且有 W=WT, WWT=I 。根據座標變換矩陣,新座標系和原始座標系直接的關係可以表示爲:
(j1,j2,...,jn′)=(i1,i2,...,in)⋅W
將其帶入前面 xi 在新座標系中的近似表達式,可得:
xl∼=(j1,j2,...,jn′)⋅⎝⎜⎜⎜⎜⎛zi(1)zi(2)⋮zi(n′)⎠⎟⎟⎟⎟⎞=(i1,i2,...,in)W⋅⎝⎜⎜⎜⎜⎛zi(1)zi(2)⋮zi(n′)⎠⎟⎟⎟⎟⎞
再將其與 xi 在原始座標系中的表達式 xi=(i1,i2,...,in)⋅⎝⎜⎜⎜⎜⎛xi(1)xi(2)⋮xi(n)⎠⎟⎟⎟⎟⎞ 比較可知,通過座標變換來降維,相當於是用 Wzi 去近似表示了 xi ,使:
xi=Wzi
即:
zi=W−1xi=WTxi
則有:
zi=wsTxi ,s=1,2,3...,n′
一般,n′ 會遠小於 n ,這樣就可以達到降維的目的了。將維度由 M 降到 M′ ,相當於人爲的丟棄了部分座標。我們的要求是:基於將爲後的座標重構樣本時,得到的重構樣本與原始原本座標儘量相同。對於樣本點 xi 來說,即要使 Wzi 和 xi 的距離最小化,推廣到整體樣本點,即:
mini=1∑M∣∣Wzi−xi∣∣22
先計算 ∣∣Wzi−xi∣∣22,即
i=1∑M∣∣Wzi−xi∣∣22=(i=1∑MxiTxi)−tr[WT(i=1∑MxiTxi)W]=(i=1∑MxiTxi)−tr(WTXXTW)
因爲對於給定 M 個樣本,i=1∑nxiTxi 是一個固定值,因此最小化上面的結果等價於:
min −tr(WTXXTW)s.t.WTW=I
構造拉格朗日函數:
L(W)=−tr(WTXXTW)+λ(WTW−I)
對 W 求導,可得:
−XXTW+λW=0
移項可得;
XXTW=λW
可以看出,座標變換矩陣 W 爲 XXT 的 M′ 個特徵向量組成的矩陣,而 λ 爲 XXT 的特徵值。當我們將原始數據集從 N 維降到 N’ 維時,只需要找到 XXT 最大的 N’ 個特徵值對應的特徵向量,將其組成座標變換矩陣(投影矩陣) W ,然後利用zi=WTxi 即可實現降維的目的。
文中實例及參考: