一定要搞清楚
markdown不支持複雜表格製作,所以word做好以後截圖。
這張表極其關鍵。
簡單梳理一下,預測的結果是後面的字母,真實的結果是前面的字母。
好了,接下來梳理指標:
-
查準率(precision)
解釋:在預測對的裏面到底有多少是對的。 -
查全率(recall)
解釋:對的例子中,查全的概率。別名:Sensitivity ,true positive rate -
Specificity
解釋:預測錯的裏面到底有多少錯的。別名:true negative rate -
Accuracy
-
準確率一般不太準,比如最新的冠狀病毒,全中國14億人。就算我猜全部安全,accuracy依舊非常高(其實患病的全部猜錯)。 -
FPR和FNR
上面說到了true positive rate和true negative rate,當然也有false positive rate 和 false negative rate。
- P-R 曲線
查準率和查全率是一對矛盾的度量,一般來說precision高,recall往往偏低;而recall高,precision往往偏低。所以就有了P-R曲線。顯然,藍色曲線越接近右上角,分類器性能越好。一些文章中的P-R curve是光滑的,注意,這一般是爲了美觀和構圖方便起見
-
BEP(Break-Even Point)
平衡點(BEP)是precision=recall時的點。如上圖所示。 -
ROC curve
ROC,全稱Receiver Operating Characteristic。與P-R curve的區別是,橫縱座標不一樣。橫軸是FPR,縱軸是TPR,而PR curve橫軸是TPR,縱軸是precision。AUC就是灰色部分的面積。 -
F1-Score
解釋:其實就是Dice 係數。BEP的度量過於簡單,所以一般使用F1-score作爲度量。
-
-score
在不同的任務中,有不同的需求。西瓜書上舉例,做推薦系統的希望我推薦的儘可能就是用戶喜歡的,所以precision很重要;警察抓小偷,希望儘可能抓住所有小偷,所以會一一排查,希望recall高。所以-score的就是一個調控因子。
,則就是普通的F1-Score。
,recall有更大影響。
,precision有更大影響。 -
宏F1(macro-F1)和微F1(micro-F1)
比如你有很多數據集,所以有很多組precision和recall。然後計算出平均的precision和recall,利用他們算F1,就是宏F1(macro-F1);
你還是有很多數據集,你計算出了平均的TP,FP,TN,FN。根據這些算F1,就是微F1(micro-F1)。