机器学习----PCA主成分分析学习笔记

原創

2018-09-06 04:53

降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

降维具有如下一些优点：（1）使得数据集更易使用（2）降低算法的计算开销（3）去除噪声（4）使得结果容易理解

PCA(principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据压缩算法。在PCA中，数据从原来的座标系转换到新的座标系，由数据本身决定。转换座标系时，以方差最大的方向作为座标轴方向，因为数据的最大方差给出了数据的最重要的信息。第一个新座标轴选择的是原始数据中方差最大的方法，第二个新座标轴选择的是与第一个新座标轴正交且方差次大的方向。重复该过程，重复次数为原始数据的特征维数。

大部分方差都包含在前面几个座标轴中，后面的座标轴所含的方差几乎为0,。于是，我们可以忽略余下的座标轴，只保留前面的几个含有绝不部分方差的座标轴。事实上，这样也就相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，也就实现了对数据特征的降维处理。

事实上，通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值及特征向量，选择特征值最大（也即包含方差最大）的N个特征所对应的特征向量组成的矩阵，我们就可以将数据矩阵转换到新的空间当中，实现数据特征的降维（N维）。

PCA步骤

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将数据转换到上面得到的N个特征向量构建的新空间中（实现了特征压缩）【实际操作：取均值后的数据矩阵*压缩矩阵】

来自https://www.cnblogs.com/zy230530/p/7074215.html

个人疑问及解释

1.为什么通过协方差矩阵的分解就能达到降维的目的

因为对一个N阶对称方阵进行特征分解，就是产生了该空间的N个标准正交基，然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基，而特征值的模则代表矩阵在每个基上的投影长度。

2.为什么要对特征值进行排序

特征值越大，说明矩阵在对应的特征向量上的方差越大，功率越大，信息量越多。也就是说特征值对应的特征向量具有一定的代表性，是这一矩阵数据中的主要特征。

3.为什么要用协方差矩阵

在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。如前面的图，样本在横轴上的投影方差较大，在纵轴上的投影方差较小，那么认为纵轴上的投影是由噪声引起的。因此我们认为，最好的k维特征是将n维样本点转换为k维后，每一维上的样本方差都很大。

另外协方差矩阵是实对称矩阵，其特征向量一定正交。

来自https://blog.csdn.net/chaoshengmingyue/article/details/50157717

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

机器学习----PCA主成分分析学习笔记

2024年DataOps趋势预测：AI不会取代数据工程师

云原生周刊：K8s 中的服务和网络｜ 2024.4.29

[转帖]cpupower

今天，昨天，近七天，近30天，近90天，js封装

华为云云原生FinOps解决方案，释放云原生最大价值

算法學習之動態規劃(java版)

MAC系統IntelliJ IDEA 創建SpringBoot項目報錯: 程序包org.springframework.boot不存在

關於使用cv::ogl在cv::cuda::gpumat上加速繪製

關於js中出現SyntaxError: illegal character問題的解決方法

記錄第一次參加kaggle

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

机器学习----PCA主成分分析 学习笔记

机器学习----PCA主成分分析学习笔记