根据挖掘目标和数据形式可以建立以下几种模型:
- 分类与预测
- 聚类分析
- 关联规则
- 时序模式
- 离群点检测
5.1分类预测
5.1.1实现过程
比如说我们现在要进行预测的分析,首先第一步,我们先要基于一定数量的样本来训练出一个训练模型,这个模型训练的如何,我们还要对其进行检测一下,如何测试的样本数据与我们想象中的差别太大,那么我们就要重新进行训练这个预测模型,但是如果我们的预测模型符合我们的预先的期望,那么我们就可以用这个模型进行预测的操作。
5.1.2常用分类与预测算法
算法名称 | 算法描述 |
回归分析 | 回归分析是确定预测属性与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic(
逻辑斯蒂)回归、岭回归、主成分回归、偏最小二乘回归 |
决策树 | 决策树采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类 |
人工神经网络 | 人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型 |
贝叶斯网络 | 贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一 |
支持向量机 | 支持向量机是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法 |
5.1.3回归分析
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
回归分析是一种通过建立模型来研究变量之间的相互关系的密切程度、结构状态及进行模型预测的有效工具。
按研究方法划分如图所示:
主要回归模型
在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量的使我们想要预测的
回归模型名称 |
适用条件 |
算法描述 |
线性回归 |
自变量与因变量是线性关系 |
对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数 |
非线性回归 | 自变量与因变量不都是线性关系 | 对一个或多个自变量和因变量之间的非线性关系进行建模。如果非线性关系可以通过简单的函数变换转化成线性关系,用线性回归的思想求解;如果不能转化,用非线性最小二乘法求解 |
Logistic回归 | 一边是因变量的取值有1和0(是与否)两种 | 广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率 |
岭回归 | 参与建模的自变量之间具有多重共线性 | 一种改进最小二乘估计的方法 |
主成分回归 | 参与建模的自变量之间具有多重共线性 | 主成分回归是根据主成分分析的思路提出来的,是对最小二乘法的一种改进,它是参数估计的一种有偏估计。可以消除自变量之间的多重共线性 |