吴恩达老师机器学习笔记(五:降维(主成分分析PCA))

第15章节——降维

降低维度的作用:

  • ·数据压缩(对数据进行压缩,使得数据占用较少的内存或者硬盘空间,还可以让我们对学习算法进行加速)
  • ·可视化数据

二维——》降低到一维 二维平面上的数据 映射到 一条线上,即数据本身需要二维向量来表示,通过降维,一维向量即可表示该样本数据
三维——》降低到二维 三维空间映射到平面

  • 数据压缩:

1

  • 可视化
    2
    这里把 总的GDP( 收入、幸福指数) 映射到 Z1,把 平均 GDP( 收入、幸福指数) 映射到 Z2
    主成分分析PCA: 找到一个低维度的平面来对数据进行投影,以便最小化投影误差的平方,以及最小化每个每个点和投影后的对应点之间的距离的平方值。
    均值归一化(特征缩放)
    数据重构(即高纬度数据压缩到低纬度,再转换为高纬度的过程,可以得到原始数据的近似)
    6
    如图所示:该过程为,把绿色线上的点,映射压缩到用 一维 的 Z 表示,然后 把一维的数据 反向映射回去的过程,低维 到 高维,可以得到最初数据的近似。

如果你的数据样本是 10000维,比如 100 * 100 的图片,这种高维的特征向量,运行学习算法时将变得非常慢。而 PCA 算法 可以有效 减少数据的维度,从而使算法运行得更加高效。使学习算法运行更快,而且不就
在许多问题上,我们的确可以减少数据的维度到 十分之一,而且仍然保留着数据的方差特性,几乎不影响性能。
PCA 做的是 定义一个从 XZ 的映射,通过降低数据维度,来提升算法学习速度的方法。

PCA的应用:

  • 对于数据降维(数据压缩),为了选择 K ,我们通常会计算方差保留的百分比,通常学习算法加速应用需要保留 99% 的方差。
  • 对于可视化而言,我们通常选择K 等于 2 或者 3

其他需要注意的地方:

  • 通过PCA 减少数据维度的方法 来 防止 过拟合,效果也许会不错,但是这不是一种解决过拟合好的方式。
  • 对于解决过拟合,使用正则化的方式更合适。
  • 使用PCA较好的方式是使用它来提升学习算法的速度
  • 一个项目计划中,不要一开始就使用PCA, 应该先看看原始数据的运行效果和速度,再考虑是否可以使用PCA来进行优化
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章