吴恩达机器学习-Chapter 15 降维

目的:降维的应用、概念、及算法。降维的3个目的:数据压缩、加速算法(缩小特征变量)、数据可视化。降维本身也是一种无监督学习算法。

1. Lesson 115 数据压缩

    1. 目的:降维的第一个应用 数据压缩
    2. 内容:
      1. 降维实际上就是减少特征变量(这里说的降维是针对特征变量进行向量化而言),比如3维降到2维就是指3个特征变量缩小到2个特征变量
      2. 当特征变量太多,而且重复度高(相关性高)在数据存储和算法计算量上会造成浪费

2. Lesson 116 数据可视化

     1. 目的:降维的第二个应用 数据可视化
     2. 内容:当超过3维之后(超过3个变量)无法可视化,只有2维和3维才能得到比较理想的可视化

3. Lesson 117 主成分分析问题规划1

    1. 目的:介绍主成分分析算法PCA
    2. 内容:

       1. 将数据点投影到投影平面(左下图是2维降到1维,右下图是3维降到2维),并使投影误差最小
       2. PCA与线性回归不同,前者是点到线的最短垂直距离,后者是点到线的直线距离(垂直于座标轴);前者无预测标签(无监督),后者有预测y(有监督)

4. Lesson 118 主成分分析问题规划2

    1. 目的:讲解PCA具体算法
    2. 内容:

      1. 数据预处理:均值标准化、特征缩放
       2. PCA具体算法步骤

      3. 统计学基本概念,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述。
      4. 协方差及其意义
      5. 协方差矩阵

5. Lesson 119 主成分数量选择

    1. 目的:m维数据降到k维,k值的选择

6. Lesson 120 压缩重现

    1. 目的:m维数据降到K维之后,通过K维数据恢复m维数据

7. Lesson 121 应用PCA建议

    1. 目的:如何应用PCA及相关建议
    2. 内容:
      1. PCA错误用法:防止过拟合,防止过拟合正确的做法是正则化
      2. PCA不是每个算法中必用的,根据需要选择

      3. PCA加速有监督学习算法步骤:1)对x特征集通过pca得到降维后的特征集z;2)特征集z和标签y组成新的训练集进行预测等;3)PCA只能用在训练集上,在得到x=>z映射之后再应用到交叉验证集上,得到新数据样本的特征集z
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章