人工智能教程 - 学科基础课程2.6 - 机器学习导论 14.降维,数据压缩,可视化数据,PCA简介

降维

dimensionality reduction

有几个原因去降维

  • 数据压缩 data compression
    使得数据占用较小的空间,还能对学习算法进行加速。
  • 可视化数据

数据压缩,用一维取代二维,减少冗余redeuces the redundancy

在这里插入图片描述

用二维取代三维

在这里插入图片描述

可视化数据

如果将数据可视化,可以更好的了解数据。

50维数据

在这里插入图片描述

50维\rightarrow 2维,但是其可视化的数据没有实际的物理意义

在这里插入图片描述

降维的算法只负责减少维数,而新产生的特征的物理意义则需要由我们自己去发现了。

在这里插入图片描述

主成分分析 PCA

principal component analysis

最主要的降维操作,压缩数据

在PCA中,我们要找到一个方向向量(Vector direction),把所有的数据都投射到该向量上,使投射平均均方误差能尽可能地小。

在这里插入图片描述

预处理非常关键:

  1. 执行均值归一化。
  2. 根据数据情况,可能也要执行特征缩放。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章