降维
dimensionality reduction
有几个原因去降维
- 数据压缩 data compression
使得数据占用较小的空间,还能对学习算法进行加速。 - 可视化数据
数据压缩,用一维取代二维,减少冗余redeuces the redundancy
用二维取代三维
可视化数据
如果将数据可视化,可以更好的了解数据。
50维数据
50维 2维,但是其可视化的数据没有实际的物理意义
降维的算法只负责减少维数,而新产生的特征的物理意义则需要由我们自己去发现了。
主成分分析 PCA
principal component analysis
最主要的降维操作,压缩数据
在PCA中,我们要找到一个方向向量(Vector direction),把所有的数据都投射到该向量上,使投射平均均方误差能尽可能地小。
预处理非常关键:
- 执行均值归一化。
- 根据数据情况,可能也要执行特征缩放。