主成分分析最大方差理論
主成分分析(PCA)目標是找到數據中的主成分,並利用這些主成分表徵原始數據,因而做到降維。
在信號領域,認爲信號具有較大的方差,噪聲具有較小的方差,信號與噪聲之比稱爲信噪比,信噪比越大意味着數據質量也就越好。進而可以採用最大化投影方差的方法實現PCA的目標。
給定一組數據點{v1,v2,⋯,vn},進行中心化表示:
{x1,x2,⋯,xn}={v1−μ,v2−μ,⋯,vn−μ},μ=n1i=1∑nvi
目標是找到一個投影方向ω(單位方向向量)使得{x1,x2,⋯,xn}在ω上的投影方差儘可能大,投影后的均值爲
μ′=n1i=1∑nxiTω=(n1i=1∑nxiT)ω=0此時,投影后的方差可以表示爲
D(x)=n1i=1∑n(xiTω)2=ωT(n1i=1∑nxixiT)ω
n1∑i=1nxixiT是樣本協方差矩陣,記爲Σ.
PCA求解下述最大化問題
maxωTΣω,s.t.ωTω=1引入拉格朗日乘子,可以推出Σω=λω,此時有
D(x)=ωTΣω=λωTω=λ即x投影后的方差爲協方差矩陣的特徵值,找到的最大方差也就是協方差矩陣最大的特徵值,最佳投影方向是相應的特徵向量。可以推出次佳投影方向是第二大特徵值對應的特徵向量,依此類推。
總結歸納PCA求解過程:
- 求樣本協方差矩陣
- 求解協方差矩陣特徵值
- 根據需求,取前k大特徵值所對應的特徵向量ω1,ω2,⋯,ωk,投影得到樣本的k維表示
xi′=(ω1Txi,ω2Txi,⋯,ωkTxi)T