机器数据挖掘--常见监督学习算法以及数据挖掘流程

有监督(分类,回归) 无监督(聚类,降维)

回归问题是指f(x)是一个连续的值,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。

分类问题是指f(x)是一个离散的值,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测。

回归算法:
线性回归
岭回归
树回归
分类算法:
逻辑回归
K邻近
朴素贝叶斯
支持向量机
决策树:ID3,C4.5,cart
集成算法:随机森林,adaboost,xgboost

挖掘流程
从大量数据中获取有效的,新颖的,潜在有用的。简单地说,数据挖掘就是从大量数据中提取或挖掘知识

定义问题
准备数据
数据预处理
特征工程
生成模型
评价模型部署和更新模型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章