吴恩达机器学习-Chapter 12 机器学习系统设计

本章目的:设计机器学习系统的问题及建议

1. Lesson 93 确定执行的优先级

    1. 垃圾邮件分类的思路,以及模型优化的选择问题

2. Lesson 94 误差分析

    1. 目的:学习误差分析的概念
    2. 内容:
      1. 为解决一个应用最快速度搭建一个简单的机器学习系统,并画出学习曲线,来判断可能问题(高偏差问题or高方差问题or其他问题),再决定收集数据还是增加特征变量
      2. 在快速实现之后,通过人为分析错误的分类或预测(误差分析),来进行分类或者找到相似的规则,并对第一版算法进行优化
      3. 最好有一个数值指标对效果进行评估,不断加入新的想法进行测试并评估

3. Lesson 95 不对称性分类误差评估

    1. 目的:不对称性分类(偏斜类)的概念与误差评估方法
    2. 内容
      1. 偏斜类是指正样本的比例非常低(比如样本数据中正样本比例只有0.5%,这个时候就算算法是1%的误差,也无法说明问题)
      2. 偏斜问题用召回率(Recall 评估覆盖度)和查准率(Precision 评估准确性)两个指标进行评估辅助评估
      3. 查准率=正确预测分类数量/预测正样本数量
      4. 召回率=正确预测分类数量/实际正样本数量

4. Lesson 96 查准率率和召回率的权衡

    1. 目的:如何选择平衡的查准率和召回率
    2. 内容:
      1. 根据置信度(临界值)的不同,可以得到不停的查准率(P)和召回率(R)(P和R成反比)
      2. 通过F值判断 F_1 Score=2(PR)/(P+R) ,F值越大越好

5. Lesson 98 机器学习数据

    1. 目的:说明数据训练集大小和特征变量的多少对算法效果有很大关系

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章