1.改进模型性能:
1.1获取更多训练数据(解决高方差:画出学习曲线,判断是否是高方差问题)
1.2改变特征数量
选用更少的特征(防止过拟合) (解决高方差)
选用更多的特征(解决高偏差)
增加多项式特征(x1的平方,x2的平方,x1*x2等) (解决高偏差)
1.3改变正则化参数
减小lambda (解决高偏差)
增加lambda(解决高方差)
2.模型评估
2.1评估假设(在测试集上)
2.2模型的选择
通过训练集的学习,将验证集的数据带入假设函数中选择误差最小的模型,再在测试集上估计泛化误差。
2.2诊断偏差和方差
关于偏差和方差的问题,前面已经叙述过https://mp.csdn.net/console/editor/html/105685337,在这里是一样的。
判断方法:绘制学习曲线
3.误差分析
3.1简单粗暴的开发一个项目并进行评估
3.2画出学习曲线,判断算法存在的问题,
3.3在交叉验证集上做误差分析,查看分类错误的案例有什么共同的特征和规律
4.样本不均衡分类的误差评估
真实值 | |||
预测值 | 0 | 1 | |
0 | TN | FN | |
1 | FP | TP |
精确率precision = TP/(TP+FP)所有预测为正例里有多少是真正例
召回率recall = TP/(TP+FN)所有真实为正例预测有多少为正例
二者越高越好,但现实中二者并不是正相关的关系,所以可以用f1-score来平衡一下二者