详细讲解分类模型评估

本篇博客让我们来学习分类模型评估。
涉及到的知识点有：

混淆矩阵

评估指标（正确率、准确率、召回率、调和平均值F1）

ROC和AUC

那我们快开始吧！

分类模型评估
1、分类模型
主题：如何对分类模型进行评估
目标：
2、混淆矩阵
3、评估指标
3.1 正确率
3.2 精准率
3.3 召回率
3.4 调和平均值F1
4、ROC和AUC
4.1 ROC曲线
如何画ROC曲线：
4.2 AUC
4.3 ROC曲线程序示例
4.3.1 roc_curve函数的参数
4.3.2 roc_curve函数的返回值
4.3.3 绘制ROC曲线
5、总结

1、分类模型

分类问题在我们日常生活中处处可见，比如我们对帅哥的分类，可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝，淘宝根据我们平时的喜好给我们推送产品，那我们就会把产品分为感兴趣和不感兴趣两类。
上述所说的问题就是典型的分类问题，确切的说其实就是二分类问题。
能够解决这些二分类问题的数学模型就被称为二分类模型。
用数学的方式表达就是，给定自变量X，代入到我们的分类模型F，会输出因变量y，y的取值为0或1，其中0代表负样本（一般帅的帅哥、不感兴趣的推送），1代表正样本（非常帅气的帅哥、感兴趣的推送）。

主题：如何对分类模型进行评估

目标：

能够熟知混淆矩阵的含义。
能够使用各种指标对分类模型进行评估。
能够独立绘制ROC曲线，并熟悉该曲线细节。
能够对样本不均衡进行处理（扩展内容）。

2、混淆矩阵

混淆矩阵，可以用来评估模型分类的正确性。
该矩阵是一个方阵，矩阵的数值用来表示分类器预测的结果，包括真正例（True Positive），假正例（False Positive），真负例（True Negative），假负例（False Negative）。

矩阵的形状是2 x 2，其中， - 矩阵的左上角表示，预测值为1，实际值为1(True Positive，简称TP)； - 右上角表示预测值为1，实际值为0(False Positive，简称FP)； - 左下角表示预测值为0，实际值为1(False Negative，简称FN)； - 右下角表示预测值为0，实际值为0(True Negative，简称TN)；

真负例（TN）+ 假正例（FP）——每个类别真实存在的负例的数量
假负例（FN）+ 真正例（TP）——每个类别真实存在的正例的数量
真负例（TN）+ 假负例（FN）——每个类别预测的真负例数量
假正例（FP）+ 真正例（TP）——每个类别预测的真正例数量

其中：

TP：真正例，实际为正预测为正；
FP：假正例，实际为负但预测为正；
FN：假反例，实际为正但预测为负；
TN：真反例，实际为负预测为负

接下来，我们通过数据来看下鸢尾花的混淆矩阵：

import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# 混淆矩阵
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import warnings

plt.rcParams["font.family"] = "SimHei"
plt.rcParams["axes.unicode_minus"] = False
plt.rcParams["font.size"] = 12
warnings.filterwarnings("ignore")

iris = load_iris()  #导入鸢尾花数据集
X, y = iris.data, iris.target
X = X[y != 0, 2:]
y = y[y != 0]
y[y == 1] = 0
y[y == 2] = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
lr = LogisticRegression()  #使用逻辑回归
lr.fit(X_train, y_train)
y_hat = lr.predict(X_test)
# 根据传入的真实值与预测值，创建混淆矩阵。
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
print(matrix)

输出结果：

我们还可以对其进行可视化操作：

mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5)    #cmap 指定颜色图色系，alpha透明度
label = ["负例", "正例"]
ax = plt.gca()
ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
        xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
        ylabel="真实值", xlabel="预测值")
for i in range(matrix.shape[0]):
    for j in range(matrix.shape[1]):
        plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
a, b = ax.get_ylim()
ax.set_ylim(a + 0.5, b - 0.5)
plt.show()

代码解析：
matshow( ) 绘制矩阵，alpha 透明度
结果：

练习：

关于混淆矩阵，说法正确的是（ ABCD）。【不定项】
A 混淆矩阵可以用来评估分类模型。
B 混淆矩阵中，TP与TN的数值越大，则分类的效果越好。
C 混淆矩阵一行元素的和代表某个类别的实际数量。
D 混淆矩阵一列元素的和代表某个类别的预测数量。

3、评估指标

对于分类模型，我们可以提取如下的评估指标：

正确率（accuracy）
精准率（precision）
召回率（recall）
F1（调和平均值）

3.1 正确率

正确率（准确率）定义如下：
衡量所有样本被分类准确的比例。
Accuracy = (TP+TN) / (TP+FP+TN+FN)

预测正确的数量除以总数量。

3.2 精准率

查准率（精准率）定义如下：
衡量正样本的分类准确率，就是说被预测为正样本的样本有多少是真的正样本。
Precision = TP / (TP+FP)

精准率只考虑正例。

3.3 召回率

查全率（召回率）定义如下：
表示分类正确的正样本占总的正样本的比例。
Recall = TP / (TP+FN)

3.4 调和平均值F1

F值（F1-scores）调和平均值F1定义如下：
精确率和召回率的调和平均。
精准率Precision和召回率Recall加权调和平均数，并假设两者一样重要。

F1-score = (2Recall*Precision) / (Recall + Precision)

精准率和召回率是一对矛盾的度量。一般来说，精准率高时，召回率往往偏低；而召回率高时，精准率往往偏低。通常只有在一些简单任务中，才可能使二者都很高。

最好的分类器当然是准确率、精确率，召回率都为1，但实际场景中几乎是不可能的，而且精确率和召回率往往会相互影响，一个高了另一个会有所下降，因此在实际应用中要根据具体需求做适当平衡。

让我们做个练习加深下印象吧！

以下说法正确的是（ C ）。
A 使用正确率去评估一个分类模型，效果会比精准率更好。
B 使用精准率去评估一个分类模型，效果会比召回率更好。
C 精准率与召回率通常要联合使用。
D 精准率与召回率如果有一个值较低，F1值也可能会较高。

如果精准率和召回率我们只能选择重视一个，我们会更看重（ C ）。
A 精准率。
B 召回率。
C 具体场景不同，重视谁也会不同。

接下来我们通过程序来说明下：

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print("正确率：", accuracy_score(y_test, y_hat))
# 默认将1类别视为正例，可以通过pos_label参数指定。
print("精准率：", precision_score(y_test, y_hat))
print("召回率：", recall_score(y_test, y_hat))
print("F1调和平均值：", f1_score(y_test, y_hat))
# 我们也可以调用逻辑回归模型对象的score方法，也能获取正确率。
# 但是需要注意，score方法与f1_score函数的参数是不同的。
print("score方法计算正确率：", lr.score(X_test, y_test))

结果：

除此之外，我们也可以使用classification_report函数来查看模型的分类统计信息，该方法会返回字符串类型，给出相关的分类指标评估值。

from sklearn.metrics import classification_report

print(classification_report(y_true=y_test, y_pred=y_hat))

结果：

练习：

如果使用精准率与召回率评估二分类模型时，我们应该将哪个类别设置为正例？（B）
A 随意
B 关注的类别
C 不关注的类别

4、ROC和AUC

ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣。

4.1 ROC曲线

ROC曲线（Receiver Operating Characteristic——受试者工作特征曲线），使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率（TPR——True Positive Rate），横轴为假正例率（FPR——False Positive Rate）。其中，真正例率与假正例率定义为：

ROC曲线通过真正例率（TPR）与假正例率（FPR）两项指标，可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变，真正例率与假负例率也会随之发生改变，进而就可以在ROC曲线座标上，形成多个点。

ROC曲线反映了FPR与TPR之间权衡的情况，通俗来说，即在TPR随着FPR递增的情况下，谁增长得更快，快多少的问题。TPR增长得越快，曲线越往上凸，模型的分类性能就越好。

ROC曲线如果为对角线，则可以理解为随机猜测。如果在对角线以下，则其性能比随机猜测还要差。如果ROC曲线真正例率为1，假正例率为0，即曲线为与构成的折线，则此时的分类器是最完美的。

下图就是ROC曲线的一个示意图：

ROC曲线横座标是FPR(False Positive Rate)，纵座标是TPR(True Positive Rate)
接下来我们考虑ROC曲线图中的四个点和一条线。

第一个点，(0,1)，即FPR=0, TPR=1，这意味着FN（false negative）=0，并且FP（false
positive）=0。这是一个完美的分类器，它将所有的样本都正确分类。
第二个点，(1,0)，即FPR=1，TPR=0，类似地分析可以发现这是一个最糟糕的分类器，因为它成功避开了所有的正确答案。
第三个点，(0,0)，即FPR=TPR=0，即FP（false positive）=TP（true
positive）=0，可以发现该分类器预测所有的样本都为负样本（negative）。
第四个点（1,1），分类器实际上预测所有的样本都为正样本。经过以上的分析，我们可以断言，ROC曲线越接近左上角，该分类器的性能越好。

如何画ROC曲线：

对于一个特定的分类器和测试数据集，显然只能得到一组FPR和TPR结果，而要得到一个曲线，我们实际上需要一系列FPR和TPR的值，这又是如何得到的呢？我们先来看一下wikipedia上对ROC曲线的定义:

A receiver operating characteristic curve, i.e. ROC curve, is a
graphical plot that illustrates the diagnostic ability of a binary
classifier system as its discrimination threshold is varied.
译：ROC曲线是由一系列因区分阈值变化产生的点，用于描述二分类模型的判断能力

这里的关键在于 “its discrimination threshold is varied” ，因为对于一个二分类模型，它的输出结果其实是判断这个样本属于正样本的概率值，假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变“discrimination threashold”？我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率

然后我们按照样本的score值，从大到小依次作为阈值，当样本score值大于等于阈值时则判定为正样本，否则为负样本。
例如第一个阈值取0.9，这时只有id=1的样本被预测为正样本，其余都是负样本，此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如：对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都大于等于0.6，而其他样本则都认为是负样本。

详细如下：

由此我们便得到了一组（FPR，TPR）的值，可以绘制出ROC曲线：

当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

4.2 AUC

AUC（Area Under the Curve）是指ROC曲线下的面积，使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而AUC作为数值可以直观的评价分类器的好坏，值越大越好。

AUC是ROC曲线下的面积。
AUC的取值为[0.5-1]，0.5对应于对角线的“随机猜测模型”。
AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

从AUC判断分类器（预测模型）优劣的标准：

例如一个模型的AUC是0.7，其含义可以理解为：给定一个正样本和一个负样本，在70%的情况下，模型对正样本的打分（概率）高于对负样本的打分。

三种AUC值示例：

简单说：AUC值越大的分类器，正确率越高。

那么为什么要用AUC作为二分类模型的评价指标呢？为什么不直接通过计算准确率来对模型进行评价呢？
因为机器学习中的很多模型对于分类问题的预测结果大多是概率，即属于某个类别的概率，如果计算准确率的话，就要把概率转化为类别，这就需要设定一个阈值，概率大于某个阈值的属于一类，概率小于某个阈值的属于另一类，而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。

小练习：

以下说法正确的是（ ABD）。【不定项】
A 随着阈值的降低，TPR与FPR都会增大。
B TPR与召回率的值是相同的。
C 如果AUC的值非常低，例如，0.1，则该模型效果很差，也很难调优。
D 无论是什么分类模型，ROC曲线一定会经过（0， 0）与（1，1）这两个点。

4.3 ROC曲线程序示例

我们首先来看一个简单的程序示例，借此来说明sklearn库中，ROC曲线的实现细节。

4.3.1 roc_curve函数的参数

import numpy as np
from sklearn.metrics import roc_curve, auc, roc_auc_score
y = np.array([0, 0, 1, 1])
scores = np.array([0.2, 0.4, 0.35, 0.8])
# 返回ROC曲线相关值。返回FPR，TPR与阈值。当分值达到阈值时，将样本判定为正类，
# 否则判定为负类。
# y_true：二分类的标签值（真实值）。
# y_score：每个标签（数据）的分值或概率值。当该值达到阈值时，判定为正例，否则判定为负例。
# 在实际模型评估时，该值往往通过决策函数（decision_function）或者概率函数（predict_proba）获得。
# pos_label：指定正例的标签值。
fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
print(f"fpr：{fpr}")
print(f"tpr：{tpr}")
print(f"thresholds：{thresholds}")
# auc与roc_auc_score函数都可以返回AUC面积值，但是注意，两个函数的参数是不同的。
print("AUC面积值：", auc(fpr, tpr))
print("AUC面积得分：", roc_auc_score(y_true=y, y_score=scores))
#### 3.3.2 roc_curve函数的返回值

结果：

1.8 是怎么来的？
1.8是阈值中最大值+1（0.8+1）得来的。为什么这么算？因为要使得最开始得到的所有阈值都不会超过这个值，才能过（0,0）和（1,1）这两个点。

4.3.2 roc_curve函数的返回值

roc_curve函数具有3个返回值：

fpr 对应每个阈值（thresholds）下的fpr值。

tpr 对应每个阈值（thresholds）下的tpr值。

thresholds 阈值。

roc_curve函数会从y_score参数中，选择部分元素作为阈值（选择哪些元素属于实现细节，会根据sklearn版本的不同，也可能会有所差异。），然后进行降序排列，作为roc_curve函数的第3个返回值（thresholds）。同时，根据thresholds中的每个元素（阈值），分别计算fpr与tpr。

iris = load_iris()
X, y = iris.data, iris.target
X = X[y != 0, 2:]
y = y[y != 0]
y[y == 1] = 0
y[y == 2] = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,
random_state=2)
# lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
lr = LogisticRegression(multi_class="ovr", solver="liblinear")
lr.fit(X_train, y_train)
# 使用概率来作为每个样本数据的分值。
probo = lr.predict_proba(X_test)
fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
pos_label=1)
display(probo[:, 1])
# 从概率中，选择若干元素作为阈值，每个阈值下，都可以确定一个tpr与fpr，
# 每个tpr与fpr对应ROC曲线上的一个点，将这些点进行连接，就可以绘制ROC曲线。
display(thresholds)

结果：

# 随着阈值的不断降低，fpr与tpr都在不断的增大。
fpr, tpr

结果：

4.3.3 绘制ROC曲线

有了fpr与tpr的值，绘制ROC曲线是非常容易的，只不过是最简单的一个plot而已。
plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, marker="o", label="ROC曲线")
plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")
plt.xlim(-0.01, 1.02)
plt.ylim(-0.01, 1.02)
plt.xticks(np.arange(0, 1.1, 0.1))
plt.yticks(np.arange(0, 1.1, 0.1))
plt.xlabel("False Positive Rate(FPR)")
plt.ylabel("True Positive Rate(TPR)")
plt.grid()
plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
plt.legend()
plt.show()

5、总结

混淆矩阵的含义。
正确率，精准率，召回率与调和平均值F1的含义。
ROC与AUC。

参考资料：
1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
2、https://www.jianshu.com/p/2feb00839154
3、https://www.cnblogs.com/kamekin/p/9788730.html
4、https://www.jianshu.com/p/c61ae11cc5f6

详细讲解分类模型评估

分类模型评估

1、分类模型

主题：如何对分类模型进行评估

目标：

2、混淆矩阵

3、评估指标

3.1 正确率

3.2 精准率

3.3 召回率

3.4 调和平均值F1

4、ROC和AUC

4.1 ROC曲线

如何画ROC曲线：

4.2 AUC

4.3 ROC曲线程序示例

4.3.1 roc_curve函数的参数

4.3.2 roc_curve函数的返回值

4.3.3 绘制ROC曲线

5、总结

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

EXCEL最重要最常用函數之VLOOKUP與HLOOKUP

Tableau可視化（神仙般繪圖）——糖潮麗子的博客

EXCEL好搭檔~ INDEX+MATCH

Excel高級可視化圖（二）——糖潮麗子的博客

（Tableau）做圖似文章般行雲流水——糖潮麗子

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結