基本概念介紹
根據查準率和查全率的定義,有以下4組概念:
正確肯定(True Positive,TP):預測爲正,實際爲正
正確否定(True Negative,TN):預測爲負,實際爲假負
錯誤肯定(False Positive,FP):預測爲正,實際爲假負
錯誤否定(False Negative,FN):預測爲負,實際爲正
下面這個表格,可以說是很著名了~
查準率precision,研究對象是預測爲正的所有,所以分母是TP+FP
查全率recall,研究對象是實際值爲正的所有,所以分母是TP+FN
BY THE WAY, precision和recall都是越高越好
precision和recall的權衡
在預測惡性腫瘤的例子中,使用邏輯迴歸的方法,假設患有腫瘤的標籤是
一般情況下,閾值設爲0.5
我們有已經訓練好的模型和一堆測試集
- 提高precision
從公式的角度,提高pre即是減小FP,減小FP可以通過提高閾值比如提升到0.7,用通俗的話來講,即只有在很高的把握時,纔會判斷病人得了腫瘤
但是,提高了閾值,隨之而來的問題是,會有實際患腫瘤但是不被預測到,FN增加,recall會下降 - 提高recall
從公式的角度,提高recall即是減小FN,減小FN可以通過減小閾值到0.3,用通俗的話來講,即不想有漏網之腫瘤
但是,減小了閾值,隨之而來的問題是,會有不患腫瘤被預測爲患有腫瘤,FP增加,recall會下降
通過以上分析,precision和recall之間是一個trade-off關係,下圖用圖表來展現這種關係。線的具體形狀有很多種,藍色、粉色、紅色都有可能。當閾值很大時,pre增加,recall減小
如何選擇閾值——F1係數
有一個幫助我們選擇這個閥值的方法。一種方法是計算F1 值(F1 Score)
選擇使得F1值最高的閥值