机器学习:从数据中自动分析获得模型,利用模型对未知数据进行预测
,
机器学习工作流程
1、获取数据
2、数据基本处理
3、特征工程
4、模型训练
5、模型评估
(1)结果达到要求,上线服务
(2)没有达到要求,重新开始
机器学习流程各个步骤解释
1、获取数据
1、数据集中一行数据称为样本,一列数据称为一个特征。
2、数据类型:特征值+目标值或者只有特征值没有目标值
3、数据分割:机器学习一般数据集分为两部分:训练数据和测试数据
训练数据:用于训练,构建模型
测试数据:模型检验时使用,用于评估模型
4、划分比例:训练集80%,测试集20%
2、数据基本处理
数据缺失值或者异常值的处理
3、特征工程
特征提取:将任意数据(文本或图像)转为可用于机器学习的特征数据的过程。
特征预处理:通过转换函数将特征数据转为更加适合算法模型的特征数据过程。
特征降维:降低随机变量个数。比如三维降为二维
4、模型训练
选择合适的算法进行模型训练
5、模型评估
对训练好的数据进行评估