简介
模型不合适,导致其无法对数据实现有效预测
训练数据 | 预测数据 | |
---|---|---|
欠拟合 | 不准确 | 不准确 |
过拟合 | 准确 | 不准确 |
好模型 | 准确 | 准确 |
原因
模型结构过于复杂(维度过高)
使用了过多属性,模型训练时包含了干扰信息
解决办法
- 简化模型结构(使用低阶模型, 比如线性模型)
- 数据预处理,保留主成分信息(数据PCA处理)
- 在模型训练时,增加正则项(regularization)
正则项
线性回归,最小化损失函数(Л):
正则化处理后的损失函数(Л:
通过引入正则化项, \(\lambda\) 取值大的情况下,可约束 \(\theta\) 取值,有效控制各个属性数据 的影响。