偏差和方差
使用同一个模型设计选取不同的训练集,训练得到不同的模型,使用不同模型对同一个测试集中的样本进行预测,得到预测值,求各个预测值和真实值的差
偏差
差的期望就是偏差
方差
差的方差就是这里的方差
判断方法
无需单独算偏差和方差,根据模型在训练集、验证集、测试集上的指标(准确率、召回率、F值等)判断。
分2种情况说明:
- k折交叉验证
每次选取k份中的一份作为测试集,其他作为训练集,共训练k个模型,每个模型在对应测试集上可以得到相应的准确率,分别与该任务最优化的准确率求差,得到k个差值,k个差值的期望(均值)即为偏差,k个差值的方差即为这里的方差 - 无交叉验证
一份训练集和一份测试集,训练只得到一个模型,模型在训练集和测试集上分别可以得到相应的准确率,分别与该任务最优化的准确率求差,得到2个差值,2个差值的期望(均值)即为偏差,2个差值的方差即为这里的方差
应对方法
方差大 | 方差小 | |
---|---|---|
偏差大 | 原因是模型复杂度不够或训练不充分,解决办法:1.增加训练时长;2.增加模型复杂度 | 原因是模型复杂度不够,解决办法:增加模型复杂度 |
偏差小 | 称为过拟合,原因是模型复杂度过高或数据量不够,解决办法: 1.正则化(不改变模型结构的情况下降低复杂度) ;2.使模型结构变简单,降低复杂度;3.增大数据量; |