机器学习----PCA主成分分析 学习笔记

降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。

降维具有如下一些优点: (1)使得数据集更易使用 (2)降低算法的计算开销 (3)去除噪声 (4)使得结果容易理解

PCA(principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据压缩算法。在PCA中,数据从原来的座标系转换到新的座标系,由数据本身决定。转换座标系时,以方差最大的方向作为座标轴方向,因为数据的最大方差给出了数据的最重要的信息。第一个新座标轴选择的是原始数据中方差最大的方法,第二个新座标轴选择的是与第一个新座标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数。

大部分方差都包含在前面几个座标轴中,后面的座标轴所含的方差几乎为0,。于是,我们可以忽略余下的座标轴,只保留前面的几个含有绝不部分方差的座标轴。事实上,这样也就相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,也就实现了对数据特征的降维处理。

事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。

 

 

PCA步骤

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将数据转换到上面得到的N个特征向量构建的新空间中(实现了特征压缩)【实际操作:取均值后的数据矩阵*压缩矩阵】

来自https://www.cnblogs.com/zy230530/p/7074215.html

 

个人疑问及解释

1.为什么通过协方差矩阵的分解就能达到降维的目的

因为对一个N阶对称方阵进行特征分解,就是产生了该空间的N个标准正交基,然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基,而特征值的模则代表矩阵在每个基上的投影长度。

2.为什么要对特征值进行排序

特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。也就是说特征值对应的特征向量具有一定的代表性,是这一矩阵数据中的主要特征。

3.为什么要用协方差矩阵

在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。

另外协方差矩阵是实对称矩阵,其特征向量一定正交。

来自https://blog.csdn.net/chaoshengmingyue/article/details/50157717

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章