在模型训练及验证之前,需进行好坏用户的划分,可通过有贷后表现根据阈值进行划分,其中坏用户定义为1,好用户定义为0,基于此对模型验证指标进行说明。
- 混淆矩阵(confusion matrix)
1 | 0 | ||
1 | TP(true positive 预测正确的坏用户个数) | FP(false positive 预测错误的坏用户个数) | |
0 | FN(false negative 预测错误的好用户个数) | TN(true negative 预测正确的好用户个数) |
-
精确率/查准率
计算方式:
精确率(Precision)=TP/(TP+FP),即预测为坏人中预测正确的坏人占比; -
召回率/查全率
计算方式:
召回率(Recall)=TP/(TP+FN),即实际为坏人中预测正确的坏人占比; -
F1 值
用来衡量二分类模型精确度的指标,综合了分类模型的准确率和召回率。
计算方式:
F1=2PR/(P+R)
即精确率与召回率的调和平均值,P指精确率,R指召回率,为综合指标;
加权一般形式:
其中:
β值 | 说明 |
β=1 | P、R权重相等,即F1 |
β>1 | R的权重>P的权重 |
β<1 | R的权重小于P的权重 |
- K-S值
ks值用于对模型风险区分能力进行评估,指标为好坏样本累计部分的插值,一般K-S曲线的最大值代表K-S统计量,ks指标越大,模型风险区分能力越强。
计算方式:
1.计算每个样本区间的TPR(真正率/召回率:实际为坏人中预测为坏人的比例)与FPR(假正率:实际中为好人预测为坏人的比例):TPR=TP/(TP+FN),FPR=FP/(FP+TN),即累计TP/(TP+FN) 与累计FP/(FP+TN);
2.将样本分布区间排序,计算每个区间:|TPR-FPR|,获取每个区间绝对值的最大值,即max(|TPR-FPR|),为评分卡的K-S值。
如图范例,纵轴为TPR与FPR,横轴为样本占比:
评价标准:
k-s值(%) | 划分说明 |
<20 | 模型无鉴别能力 |
20~40 | 模型效果勉强接受 |
41~50 | 模型具有区别能力 |
51~60 | 模型有很好的区别能力 |
61~75 | 模型有非常好的区别能力 |
>75 | 模型异常,可能有问题 |
-
ROC
计算方式:
1.计算每个样本区间的TPR:TPR=TP/(TP+FN),FPR=FP/(FP+TN)
2.以FPR为x轴,TPR为y轴画图,获得ROC曲线 -
AUC
计算方式:
AUC为ROC曲线下的面积,一般AUC在0.5到1之间,AUC越高,模型的区分能力越好。 -
GINI系数
Gini coefficient用以衡量模型风险区分能力,用来衡量分布平衡程度,值的范围为0~1,计算方式:均匀分布直线与洛伦兹曲线之间的面积/均匀分布直线下的面积,即G=A/(A+B)。
计算方式:
gini系数 = A / (A + B) = (AUC - C) / (A + B) = (AUC -0.5) / 0.5 = 2*AUC - 1(其中C=A+B); -
PSI
稳定度指标PSI,用于衡量测试样本即模型开发样本评分的分布差异。PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化。
计算方式:
1.获取各评分区间样本实际占比Ac,与预测占比Ex,
2.PSI=sum((Ac-Ex)*ln(Ac/Ex))
PSI | 划分说明 |
<10% | 稳定性很高,无需更新模型 |
<10%~25% | 稳定性一般,需要进一步研究 |
>25% | 稳定性差,需要更新模型 |
-
LIFT
lift用来衡量一个模型是否有效,其值为应用模型对目标响应的预测能力优于随机响应的倍数,lift值越大,模型运行效果越好。
计算方式:
Lift=(TP/(TP+FP))/(P/(P+N))
即实际为坏样本中预测正确的比例与随机分配坏样本的比例的比值。 -
GAIN
用来描述模型的整体精准度;
计算方式:
Gain=TP/(TP+FP) -
参考url:
https://staesthetic.wordpress.com/2014/04/14/gini-roc-auc-and-accuracy/
https://blog.csdn.net/shy19890510/article/details/79501582
https://blog.csdn.net/pipisorry/article/details/52574156
https://zh.wikipedia.org/wiki/基尼系数
http://www.mamicode.com/info-detail-2307541.html