降维:主成分分析

主成分分析最大方差理论

主成分分析(PCA)目标是找到数据中的主成分,并利用这些主成分表征原始数据,因而做到降维
在信号领域,认为信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比,信噪比越大意味着数据质量也就越好。进而可以采用最大化投影方差的方法实现PCA的目标。
给定一组数据点{v1,v2, ,vn}\{v_1,v_2,\cdots,v_n\},进行中心化表示:
{x1,x2, ,xn}={v1μ,v2μ, ,vnμ},μ=1ni=1nvi\{x_1,x_2,\cdots,x_n\}=\{v_1-\mu,v_2-\mu,\cdots,v_n-\mu\},\mu=\frac{1}{n}\sum_{i=1}^{n}v_i
目标是找到一个投影方向ω\omega(单位方向向量)使得{x1,x2, ,xn}\{x_1,x_2,\cdots,x_n\}ω\omega上的投影方差尽可能大,投影后的均值为
μ=1ni=1nxiTω=(1ni=1nxiT)ω=0\mu'=\frac{1}{n}\sum_{i=1}^{n}x_i^T\omega=(\frac{1}{n}\sum_{i=1}^{n}x_i^T)\omega=0此时,投影后的方差可以表示为
D(x)=1ni=1n(xiTω)2=ωT(1ni=1nxixiT)ωD(x)=\frac{1}{n}\sum_{i=1}^{n}(x_i^T\omega)^2=\omega^T(\frac{1}{n}\sum_{i=1}^{n}x_ix_i^T)\omega
1ni=1nxixiT\frac{1}{n}\sum_{i=1}^{n}x_ix_i^T是样本协方差矩阵,记为Σ\Sigma.
PCA求解下述最大化问题
maxωTΣω,s.t.ωTω=1\max{\omega^T\Sigma\omega},s.t.\omega^T\omega=1引入拉格朗日乘子,可以推出Σω=λω\Sigma\omega=\lambda\omega,此时有
D(x)=ωTΣω=λωTω=λD(x)=\omega^T\Sigma\omega=\lambda\omega^T\omega=\lambdaxx投影后的方差为协方差矩阵的特征值,找到的最大方差也就是协方差矩阵最大的特征值,最佳投影方向是相应的特征向量。可以推出次佳投影方向是第二大特征值对应的特征向量,依此类推。
总结归纳PCA求解过程:

  • 求样本协方差矩阵
  • 求解协方差矩阵特征值
  • 根据需求,取前kk大特征值所对应的特征向量ω1,ω2, ,ωk\omega_1,\omega_2,\cdots,\omega_k,投影得到样本的kk维表示
    xi=(ω1Txi,ω2Txi, ,ωkTxi)Tx_i'=(\omega^T_1x_i,\omega^T_2x_i,\cdots,\omega^T_kx_i)^T
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章