二分類評測指標

一定要搞清楚

markdown不支持複雜表格製作，所以word做好以後截圖。

這張表極其關鍵。
簡單梳理一下，預測的結果是後面的字母，真實的結果是前面的字母。

好了，接下來梳理指標：

查準率（precision）
$precision = \frac{TP}{TP + FP}$
解釋：在預測對的裏面到底有多少是對的。
查全率（recall）
$recall = \frac{TP}{TP+FN}$
解釋：對的例子中，查全的概率。別名：Sensitivity ，true positive rate
Specificity
$Specificity= \frac{TN}{ TN+ FP}$
解釋：預測錯的裏面到底有多少錯的。別名：true negative rate
Accuracy
-
準確率一般不太準，比如最新的冠狀病毒，全中國14億人。就算我猜全部安全，accuracy依舊非常高（其實患病的全部猜錯）。
FPR和FNR
上面說到了true positive rate和true negative rate，當然也有false positive rate 和 false negative rate。
$false\ positive\ rate = 1-true\ negative\ rate$

$false\ negative\ rate = 1-true\ positive\ rate$

查準率和查全率是一對矛盾的度量，一般來說precision高，recall往往偏低；而recall高，precision往往偏低。所以就有了P-R曲線。顯然，藍色曲線越接近右上角，分類器性能越好。一些文章中的P-R curve是光滑的，注意，這一般是爲了美觀和構圖方便起見

BEP(Break-Even Point)
平衡點（BEP）是precision=recall時的點。如上圖所示。
ROC curve

ROC，全稱Receiver Operating Characteristic。與P-R curve的區別是，橫縱座標不一樣。橫軸是FPR，縱軸是TPR，而PR curve橫軸是TPR，縱軸是precision。AUC就是灰色部分的面積。
F1-Score
$F1-score = \frac{2\times precision\times recall}{precision+recall}$
解釋：其實就是Dice 係數。BEP的度量過於簡單，所以一般使用F1-score作爲度量。
$F_\beta$ -score
在不同的任務中，有不同的需求。西瓜書上舉例，做推薦系統的希望我推薦的儘可能就是用戶喜歡的，所以precision很重要；警察抓小偷，希望儘可能抓住所有小偷，所以會一一排查，希望recall高。所以 $F_\beta$ -score的 $\beta$ 就是一個調控因子。
$F_\beta = \frac{(1+\beta^2)\times P \times R}{(\beta^2 \times P)+R}$
$\beta=1$ ，則就是普通的F1-Score。
$\beta>1$ ，recall有更大影響。
$\beta<1$ ，precision有更大影響。
宏F1(macro-F1)和微F1(micro-F1)
比如你有很多數據集，所以有很多組precision和recall。然後計算出平均的precision和recall，利用他們算F1，就是宏F1(macro-F1)；
你還是有很多數據集，你計算出了平均的TP,FP,TN,FN。根據這些算F1，就是微F1(micro-F1)。