吴恩达机器学习-Chapter 12 机器学习系统设计

原創

数据追随者

2019-04-23 18:11

本章目的：设计机器学习系统的问题及建议

1. Lesson 93 确定执行的优先级

1. 垃圾邮件分类的思路，以及模型优化的选择问题

2. Lesson 94 误差分析

1. 目的：学习误差分析的概念
2. 内容：
1. 为解决一个应用最快速度搭建一个简单的机器学习系统，并画出学习曲线，来判断可能问题（高偏差问题or高方差问题or其他问题），再决定收集数据还是增加特征变量
2. 在快速实现之后，通过人为分析错误的分类或预测（误差分析），来进行分类或者找到相似的规则，并对第一版算法进行优化
3. 最好有一个数值指标对效果进行评估，不断加入新的想法进行测试并评估

3. Lesson 95 不对称性分类误差评估

1. 目的：不对称性分类（偏斜类）的概念与误差评估方法
2. 内容
1. 偏斜类是指正样本的比例非常低（比如样本数据中正样本比例只有0.5%，这个时候就算算法是1%的误差，也无法说明问题）
2. 偏斜问题用召回率（Recall 评估覆盖度）和查准率（Precision 评估准确性）两个指标进行评估辅助评估
3. 查准率=正确预测分类数量/预测正样本数量
4. 召回率=正确预测分类数量/实际正样本数量

4. Lesson 96 查准率率和召回率的权衡

1. 目的：如何选择平衡的查准率和召回率
2. 内容：
1. 根据置信度（临界值）的不同，可以得到不停的查准率（P）和召回率（R）（P和R成反比）
2. 通过F值判断 F_1 Score=2(PR)/(P+R) ,F值越大越好

5. Lesson 98 机器学习数据

1. 目的：说明数据训练集大小和特征变量的多少对算法效果有很大关系

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吴恩达机器学习-Chapter 12 机器学习系统设计

本章目的：设计机器学习系统的问题及建议

1. Lesson 93 确定执行的优先级

2. Lesson 94 误差分析

3. Lesson 95 不对称性分类误差评估

4. Lesson 96 查准率率和召回率的权衡

5. Lesson 98 机器学习数据

SQL优化-20231016

自己的行爲自己來分析-數分技能提升

數據分析之指標體系

互聯網用戶行爲分析入門

大數據崗位家族解讀

最實用數據分析師準備之路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結