【数据挖掘】什么是PCA技术?对于主成分分析(PCA)的降维理解(5月7日学习笔记)

1.什么是PCA技术?

PCA技术

主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

PCA

主成分分析(Principal Component Analysis,PCA),
是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
原来要考虑多个指标的影响,现在只要考虑几个指标的影响了(降维)。

2.为什么要降维?

在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

也就是说,我们需要通过降维的方式减少不必要研究的变量,以此来简化课题。

3.为什么可以降维?

原来的变量间关系紧密,可以用新的变量来进行替换,并且也能保持原有的信息不变。
马同学 前辈的回答如何通俗易懂地讲解什么是 PCA 主成分分析?中关于房价与房间面积的案例对此有着生动的解释。
在这里插入图片描述
其中,样本协方差的定义详见参考文献4链接,是用于衡量几个变量间的总体误差。
两个变量的各个取值投影在直角座标系中,通过旋转座标系可以确定主元,此时纵座标的主元2完全为0
在这里插入图片描述
在这里插入图片描述
通过这样的方式,我们将变量降成了一维。即将“房价”和"面积“降维”成“主元1”(因为“主元2”全都为0,完全是多余的)

就算不是如图所示的刚好能够化主元2为0的情况,也可以通过正交分解的方式降维,只是根据旋转的座标轴不同,在不同座标系中值也会有所不同。

——————————————————
参考文献
【1】主成分分析.百度百科.
https://baike.baidu.com/item/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/829840
【2】PCA技术.百度百科.
https://baike.baidu.com/item/pca%E6%8A%80%E6%9C%AF/10408698?fr=aladdin
【3】如何通俗易懂地讲解什么是 PCA 主成分分析?by马同学.知乎
https://www.zhihu.com/question/41120789?sort=created
【4】样本方差,协方差,协方差矩阵by柚子
https://www.cnblogs.com/fujj/p/9720357.html
【5】协方差意思?by夜璇宸https://zhidao.baidu.com/question/25865701.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章