降維:主成分分析

主成分分析最大方差理論

主成分分析(PCA)目標是找到數據中的主成分,並利用這些主成分表徵原始數據,因而做到降維
在信號領域,認爲信號具有較大的方差,噪聲具有較小的方差,信號與噪聲之比稱爲信噪比,信噪比越大意味着數據質量也就越好。進而可以採用最大化投影方差的方法實現PCA的目標。
給定一組數據點{v1,v2, ,vn}\{v_1,v_2,\cdots,v_n\},進行中心化表示:
{x1,x2, ,xn}={v1μ,v2μ, ,vnμ},μ=1ni=1nvi\{x_1,x_2,\cdots,x_n\}=\{v_1-\mu,v_2-\mu,\cdots,v_n-\mu\},\mu=\frac{1}{n}\sum_{i=1}^{n}v_i
目標是找到一個投影方向ω\omega(單位方向向量)使得{x1,x2, ,xn}\{x_1,x_2,\cdots,x_n\}ω\omega上的投影方差儘可能大,投影后的均值爲
μ=1ni=1nxiTω=(1ni=1nxiT)ω=0\mu'=\frac{1}{n}\sum_{i=1}^{n}x_i^T\omega=(\frac{1}{n}\sum_{i=1}^{n}x_i^T)\omega=0此時,投影后的方差可以表示爲
D(x)=1ni=1n(xiTω)2=ωT(1ni=1nxixiT)ωD(x)=\frac{1}{n}\sum_{i=1}^{n}(x_i^T\omega)^2=\omega^T(\frac{1}{n}\sum_{i=1}^{n}x_ix_i^T)\omega
1ni=1nxixiT\frac{1}{n}\sum_{i=1}^{n}x_ix_i^T是樣本協方差矩陣,記爲Σ\Sigma.
PCA求解下述最大化問題
maxωTΣω,s.t.ωTω=1\max{\omega^T\Sigma\omega},s.t.\omega^T\omega=1引入拉格朗日乘子,可以推出Σω=λω\Sigma\omega=\lambda\omega,此時有
D(x)=ωTΣω=λωTω=λD(x)=\omega^T\Sigma\omega=\lambda\omega^T\omega=\lambdaxx投影后的方差爲協方差矩陣的特徵值,找到的最大方差也就是協方差矩陣最大的特徵值,最佳投影方向是相應的特徵向量。可以推出次佳投影方向是第二大特徵值對應的特徵向量,依此類推。
總結歸納PCA求解過程:

  • 求樣本協方差矩陣
  • 求解協方差矩陣特徵值
  • 根據需求,取前kk大特徵值所對應的特徵向量ω1,ω2, ,ωk\omega_1,\omega_2,\cdots,\omega_k,投影得到樣本的kk維表示
    xi=(ω1Txi,ω2Txi, ,ωkTxi)Tx_i'=(\omega^T_1x_i,\omega^T_2x_i,\cdots,\omega^T_kx_i)^T
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章