【机器学习】常见模型评估指标

码字不易,喜欢请点赞!!!
【机器学习】中常见的模型评估指标
常见类别一:错误率/精度
mm个样本中,有α\alpha个样本分类错误。
1.错误率(error rate):E=α/mE = \alpha/m
2.精度(accuracy):1α/m1-\alpha/m

常见类别二:查准率/查全率
对于预测问题,我们根据真实情况和预测结果组合有真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative),分类结果得混淆矩阵(confusion matrix)如下图,则有:
样本总数m=TP+FP+TN+FNm=TP+FP+TN+FN
在这里插入图片描述
并有以下两个评估指标:
1.查准率(precision):体现查出来的正例中有多少是真正例,即P=TPTP+FPP=\frac{TP}{TP+FP}
2.查全率(recall):体现有多少正例被查出来了,即R=TPTP+FNR=\frac{TP}{TP+FN}

根据查准率和查全率的公式可知,查准率和查全率是一对矛盾的指标。一般,查准率越高,查全率就越低;反之,查全率越高,则查准率越低。

下图中,查全率为横轴,查准率为纵轴,称为查准率-查全率曲线,简称“P-R曲线”。
在这里插入图片描述
可以通过“P-R曲线”,来评价模型的好坏,具体方法有以下几种:

  • B曲线包含C曲线,因此B优于C
  • 查准率=查全率的点称为平衡点,平衡点的值越大,则越优
  • “P-R曲线”下面积越大,则越优
  • F1度量指标:F1=2PRP+R=2TP+TPTNF1=\frac{2*P*R}{P+R}=\frac{2*TP}{样本总数+TP-TN}

常见类别三:ROC/AUC
首先,两个指标,真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)的计算公式如下:

TRP=TPTP+FNTRP = \frac{TP}{TP+FN}

FRP=FPFP+TNFRP = \frac{FP}{FP+TN}

1.ROC曲线(Receiver Operating Characteristic),称为“受试者工作特征”,使用TPR作为纵轴,FPR作为横轴,如下图。对于ROC曲线的优劣比较可以参考P-R曲线。
2.AUC(Area Under ROC Curve),表示ROC曲线下面积,使用该面积的大小来判断ROC曲线的优劣,AUC越大越好。
注:AUC范围:[0.5,1.0]
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章