【机器学习】常见模型评估指标

原創

2019-10-26 01:10

码字不易，喜欢请点赞！！！
【机器学习】中常见的模型评估指标
常见类别一：错误率/精度
在 $m$ 个样本中，有 $\alpha$ 个样本分类错误。
1.错误率(error rate)： $E = \alpha/m$
2.精度(accuracy)： $1-\alpha/m$

常见类别二：查准率/查全率
对于预测问题，我们根据真实情况和预测结果组合有真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)，分类结果得混淆矩阵(confusion matrix)如下图，则有：
样本总数 $m=TP+FP+TN+FN$

并有以下两个评估指标：
1.查准率(precision)：体现查出来的正例中有多少是真正例，即 $P=\frac{TP}{TP+FP}$
2.查全率(recall)：体现有多少正例被查出来了，即 $R=\frac{TP}{TP+FN}$

根据查准率和查全率的公式可知，查准率和查全率是一对矛盾的指标。一般，查准率越高，查全率就越低；反之，查全率越高，则查准率越低。

下图中，查全率为横轴，查准率为纵轴，称为查准率-查全率曲线，简称“P-R曲线”。

可以通过“P-R曲线”，来评价模型的好坏，具体方法有以下几种：

B曲线包含C曲线，因此B优于C
查准率=查全率的点称为平衡点，平衡点的值越大，则越优
“P-R曲线”下面积越大，则越优
F1度量指标： $F1=\frac{2*P*R}{P+R}=\frac{2*TP}{样本总数+TP-TN}$

常见类别三：ROC/AUC
首先，两个指标，真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)的计算公式如下：

$TRP = \frac{TP}{TP+FN}$

$FRP = \frac{FP}{FP+TN}$

1.ROC曲线(Receiver Operating Characteristic)，称为“受试者工作特征”，使用TPR作为纵轴，FPR作为横轴，如下图。对于ROC曲线的优劣比较可以参考P-R曲线。
2.AUC(Area Under ROC Curve)，表示ROC曲线下面积，使用该面积的大小来判断ROC曲线的优劣，AUC越大越好。
注：AUC范围：[0.5,1.0]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【机器学习】常见模型评估指标

工作中用到的脚本合集

微服务实践Aspire项目发布到远程k8s集群

通过f-string编写简洁高效的Python格式化输出代码

[转帖]20个常用的Linux工具命令

[转帖]PostgreSQL从小白到高手教程 - 第46讲：poc-tpch测试

24-5-18 X

【中信卡】數據挖掘分析筆試+面經

【陌陌】數據分析師四面

【機器學習】十四、AdaBoost算法原理詳解

【Python】Selenium爬蟲提取標籤屬性值

【Python】Selenium爬蟲提取文本內容

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結