哲哲的ML笔记(二十三:查准率(Precision)和查全率(Recall))

基本概念介绍

根据查准率和查全率的定义,有以下4组概念:
正确肯定(True Positive,TP):预测为正,实际为正
正确否定(True Negative,TN):预测为负,实际为假负
错误肯定(False Positive,FP):预测为正,实际为假负
错误否定(False Negative,FN):预测为负,实际为正

下面这个表格,可以说是很著名了~


查准率precision,研究对象是预测为正的所有,所以分母是TP+FP
precision=\frac{TP}{no.of\;predicted\; positive}=\frac{TP}{TP+FP}

查全率recall,研究对象是实际值为正的所有,所以分母是TP+FN
recall=\frac{TP}{no.of\;actual\;positive}=\frac{TP}{TP+FN}
BY THE WAY, precision和recall都是越高越好

precision和recall的权衡

在预测恶性肿瘤的例子中,使用逻辑回归的方法,假设患有肿瘤的标签是y=1
一般情况下,阈值设为0.5
predict\;1\;\;if\;\;\;h_\theta(x)\leq0.5
predict\;0\;\;if\;\;\;h_\theta(x)>0.5
我们有已经训练好的模型和一堆测试集

  1. 提高precision
    从公式的角度,提高pre即是减小FP,减小FP可以通过提高阈值比如提升到0.7,用通俗的话来讲,即只有在很高的把握时,才会判断病人得了肿瘤
    但是,提高了阈值,随之而来的问题是,会有实际患肿瘤但是不被预测到,FN增加,recall会下降
  2. 提高recall
    从公式的角度,提高recall即是减小FN,减小FN可以通过减小阈值到0.3,用通俗的话来讲,即不想有漏网之肿瘤
    但是,减小了阈值,随之而来的问题是,会有不患肿瘤被预测为患有肿瘤,FP增加,recall会下降

通过以上分析,precision和recall之间是一个trade-off关系,下图用图表来展现这种关系。线的具体形状有很多种,蓝色、粉色、红色都有可能。当阈值很大时,pre增加,recall减小

如何选择阈值——F1系数

有一个帮助我们选择这个阀值的方法。一种方法是计算F1 值(F1 Score)
F1=2\frac{precision*recall}{precision+recall}
选择使得F1值最高的阀值

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章