哲哲的ML笔记（二十三：查准率（Precision）和查全率（Recall））

原創

2021-04-16 01:29

基本概念介绍

根据查准率和查全率的定义，有以下4组概念：
正确肯定（True Positive,TP）：预测为正，实际为正
正确否定（True Negative,TN）：预测为负，实际为假负
错误肯定（False Positive,FP）：预测为正，实际为假负
错误否定（False Negative,FN）：预测为负，实际为正

下面这个表格，可以说是很著名了~

查准率precision，研究对象是预测为正的所有，所以分母是TP+FP
$precision=\frac{TP}{no.of\;predicted\; positive}=\frac{TP}{TP+FP}$

查全率recall，研究对象是实际值为正的所有，所以分母是TP+FN
$recall=\frac{TP}{no.of\;actual\;positive}=\frac{TP}{TP+FN}$
BY THE WAY, precision和recall都是越高越好

precision和recall的权衡

在预测恶性肿瘤的例子中，使用逻辑回归的方法，假设患有肿瘤的标签是 $y=1$
一般情况下，阈值设为0.5
$predict\;1\;\;if\;\;\;h_\theta(x)\leq0.5$
$predict\;0\;\;if\;\;\;h_\theta(x)>0.5$
我们有已经训练好的模型和一堆测试集

提高precision
从公式的角度，提高pre即是减小FP，减小FP可以通过提高阈值比如提升到0.7，用通俗的话来讲，即只有在很高的把握时，才会判断病人得了肿瘤
但是，提高了阈值，随之而来的问题是，会有实际患肿瘤但是不被预测到，FN增加，recall会下降
提高recall
从公式的角度，提高recall即是减小FN，减小FN可以通过减小阈值到0.3，用通俗的话来讲，即不想有漏网之肿瘤
但是，减小了阈值，随之而来的问题是，会有不患肿瘤被预测为患有肿瘤，FP增加，recall会下降

通过以上分析，precision和recall之间是一个trade-off关系，下图用图表来展现这种关系。线的具体形状有很多种，蓝色、粉色、红色都有可能。当阈值很大时，pre增加，recall减小

如何选择阈值——F1系数

有一个帮助我们选择这个阀值的方法。一种方法是计算F1 值（F1 Score）
$F1=2\frac{precision*recall}{precision+recall}$
选择使得F1值最高的阀值

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

哲哲的ML笔记（二十三：查准率（Precision）和查全率（Recall））

基本概念介绍

precision和recall的权衡

如何选择阈值——F1系数

百度產品實習面經

momenta產品實習面經

&和*的區別--golang

9.5隨想-邊界與自我

查看CNI中的veth pair

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結