哲哲的ML筆記(二十三:查準率(Precision)和查全率(Recall))

基本概念介紹

根據查準率和查全率的定義,有以下4組概念:
正確肯定(True Positive,TP):預測爲正,實際爲正
正確否定(True Negative,TN):預測爲負,實際爲假負
錯誤肯定(False Positive,FP):預測爲正,實際爲假負
錯誤否定(False Negative,FN):預測爲負,實際爲正

下面這個表格,可以說是很著名了~


查準率precision,研究對象是預測爲正的所有,所以分母是TP+FP
precision=\frac{TP}{no.of\;predicted\; positive}=\frac{TP}{TP+FP}

查全率recall,研究對象是實際值爲正的所有,所以分母是TP+FN
recall=\frac{TP}{no.of\;actual\;positive}=\frac{TP}{TP+FN}
BY THE WAY, precision和recall都是越高越好

precision和recall的權衡

在預測惡性腫瘤的例子中,使用邏輯迴歸的方法,假設患有腫瘤的標籤是y=1
一般情況下,閾值設爲0.5
predict\;1\;\;if\;\;\;h_\theta(x)\leq0.5
predict\;0\;\;if\;\;\;h_\theta(x)>0.5
我們有已經訓練好的模型和一堆測試集

  1. 提高precision
    從公式的角度,提高pre即是減小FP,減小FP可以通過提高閾值比如提升到0.7,用通俗的話來講,即只有在很高的把握時,纔會判斷病人得了腫瘤
    但是,提高了閾值,隨之而來的問題是,會有實際患腫瘤但是不被預測到,FN增加,recall會下降
  2. 提高recall
    從公式的角度,提高recall即是減小FN,減小FN可以通過減小閾值到0.3,用通俗的話來講,即不想有漏網之腫瘤
    但是,減小了閾值,隨之而來的問題是,會有不患腫瘤被預測爲患有腫瘤,FP增加,recall會下降

通過以上分析,precision和recall之間是一個trade-off關係,下圖用圖表來展現這種關係。線的具體形狀有很多種,藍色、粉色、紅色都有可能。當閾值很大時,pre增加,recall減小

如何選擇閾值——F1係數

有一個幫助我們選擇這個閥值的方法。一種方法是計算F1 值(F1 Score)
F1=2\frac{precision*recall}{precision+recall}
選擇使得F1值最高的閥值

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章