评估指标 -- Precision(查准率), Recall(查全率)和F1 score; PR曲线和mAP; ROC曲线和AUC

Precision, Recall 和 F1 score

在这里插入图片描述
Precision – 查准率、精确率
Recall – 查全率、召回率

查准率和查全率是互相影响的,理想情况是希望两者都高,但是一般情况下查准率高、查全率就低,查全率高、查准率就低.
如果是做搜索,那就是保证查全的情况下提升查准率;如果做疾病监测、反垃圾,则是保证查准的条件下,提升查全率。

为了衡量在某一阈值下P和R的综合结果, 采用指标F1 score:
F1=2PRP+RF1 = \frac{2*P*R}{P+R}

PR曲线与mAP(mean average precision)

  1. 知乎上关于mAP的解释: mean average precision(MAP)在计算机视觉中是如何计算和应用的?
  2. PR曲线, mAP具体计算过程: 深度学习-目标检测评估指标P-R曲线、AP、mAP
  3. 总结: mAP是为解决P,R,F1 score的单点值局限性的。为了得到一个能够反映全局性能的指标.

因为P, R和F1 score都只能衡量模型在一个固定阈值下的性能, 但一般情况,不同阈值下, 模型会有不同的表现, 把不同阈值下的P, R记录下来, 可以得到一条PR曲线:
在这里插入图片描述
可以看到, 只看F1 score的话, 一开始红色模型不如黑色模型, 但是全局来看, 红色模型的性能比黑色模型要出色.

PR曲线下的面积, 叫做AP(average precision), N个分类类别得到N条PR曲线得到N个AP, 求平均得到mAP(mean average precision).

具体计算过程: (目标检测为例)

  1. 先把所有bbox找出来 并加上confidence
  2. 然后每一类根据confidence从大到小排列
  3. 每一类中每个confidence计算与label对应的IOU, 根据设定的IOU阈值判断是否预测正确
  4. 每一类中每个confidence根据预测正误算出其recall和precision得到每一类的PR曲线, 曲线下的面积为对应该类的average precision
  5. 所有类取mean, 得到对应IOU阈值下的mean average precision, 如mAP50, mAP75等等(YOLO论文中叫AP50, AP75).

ROC曲线和AUC

  1. 对ROC曲线的理解: ROC和CMC曲线的理解
  2. ROC曲线和PR曲线的区别与联系: 检测率,召回率,mAP,ROC
  3. 总结: PR曲线是表现查准率与查全率的变化关系, 适用于检索问题; ROC曲线是表现模型的预测结果中正误的变化关系, 适用于分类问题.
    在这里插入图片描述
    纵轴:真正类率(true postive rate TPR)灵敏度,代表分类器预测的正类中实际正实例占所有正实例的比例, TRP的值越大,说明预测的正类中实际的正类越多TPR=TPTP+FNTPR = \frac{TP}{TP + FN}横轴:负正类率(false postive rate FPR)特异度,代表分类器预测的正类中实际负实例占所有负实例的比例, FPR的值越大,说明预测的正类中实际的负类越多FPR=FPFP+TNFPR = \frac{FP}{FP + TN}

ROC曲线的意义:
对模型的预测结果score排序, 然后将预测为正负类的阈值从最大的score开始逐渐减小. 当阈值最大时, TP的数量最少, TPR接近0, 并且此时FP也最少, FPR也接近0. 阈值最大时, 对应座标为(0, 0).
随着阈值的减小,越来越多的实例被划分为正类,即TP的数量越来越多,FN的数量越来越少,通过计算公式TP/(TP+FN)可以看到,TPR的值趋近于1;同时,当越来越多的实例被划分为正类时,这些正类当中也同样掺杂着真正的负实例,并且随着阈值的减少,TN的数量越来越少,通过计算公式FP/(FP+TN)可以看到,FPR的值趋近于1。因此,阈值最小时,对应座标为(1,1).

理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好.

AUC: ROC曲线下的面积, 取值范围在0.5和1之间. 意义是量化比较不同的ROC曲线.

ROC曲线的特性: 当测试集中的正负样本的分布变换的时候(分布不平衡),ROC曲线能够保持不变.(PR曲线会发生较大变化)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章