機器學習基礎——徹底搞懂Precision\Recall\F1\P-R\ROC

一直以爲自己理解這些概念，但是其實只是聽說過而已。這些概念的釋義來自於周志華教授的《機器學習》，都屬於對機器學習算法的性能度量。

一、錯誤率與精度

還是使用書上的定義寫的明確，test set中所有樣本預測對和預測錯所佔的比例就是這兩個指標，求和爲1。但是其實這裏表述並不是很好，這裏的“精度”更好的表示是“準確度”（Accuracy），這兩個指標只是在“對”與“錯”層面進行分析，並未涉及出錯原因。

二、查準率&查全率&PR曲線&F1

首先要介紹混淆矩陣，注意這個僅僅適用於二分類問題，碰到其他問題可以進行拓展。這個的確比較“混淆”人，符號標記很亂，中文翻譯也很拗口。首字母表示了預測的結果這件事的正確與否：是True還是False。後面字母表示了預測的結果。這四個位置的數值加起來等於樣本的總數。

接下來定義Precision和Recall，P的分母是分類器給出的正例集合；R的分母是數據集中所有的正例集合。兩個率分別反應模型查的準不準，和，查的全不全。um這個感覺也有點難記，可以這樣記召回率：因爲有FN全負面信息，所以要“召回”。

實際模型對每個樣本的預測結果都是0-1之間連續的，因此調整這個閾值就可以獲得每個樣本變動後對應的混淆矩陣（可以視爲考察閾值對模型分辨結果的影響）。此時對應的多個P-R點可以進行繪製成爲PR曲線，類似下圖這樣。曲線下部所圍成的面積越大代表模型性能越好。也可以使用平衡點來度量學習器的好壞，在平和點處P=R。

F1參數本質是對兩個率進行調和平均運算，更加關注較小值對最終結果的影響。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習基礎——徹底搞懂Precision\Recall\F1\P-R\ROC

一、錯誤率與精度

二、查準率&查全率&PR曲線&F1

[交叉熵損失函數的由來：KL散度] & [softmax+交叉熵損失函數求梯度推導]

相對熵 KL散度（KullbackLeibler divergence）

約束優化方法_2_——Frank-Wolfe方法

argparse模塊使用說明

Tensorboard在網絡訓練中的Logger使用方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結