機器學習基礎——徹底搞懂Precision\Recall\F1\P-R\ROC

一直以爲自己理解這些概念,但是其實只是聽說過而已。這些概念的釋義來自於周志華教授的《機器學習》,都屬於對機器學習算法的性能度量。

一、錯誤率與精度

還是使用書上的定義寫的明確,test set中所有樣本預測對和預測錯所佔的比例就是這兩個指標,求和爲1。但是其實這裏表述並不是很好,這裏的“精度”更好的表示是“準確度”(Accuracy),這兩個指標只是在“對”與“錯”層面進行分析,並未涉及出錯原因。

 二、查準率&查全率&PR曲線&F1

首先要介紹混淆矩陣,注意這個僅僅適用於二分類問題,碰到其他問題可以進行拓展。這個的確比較“混淆”人,符號標記很亂,中文翻譯也很拗口。首字母表示了預測的結果這件事的正確與否:是True還是False。後面字母表示了預測的結果。這四個位置的數值加起來等於樣本的總數。

 接下來定義Precision和Recall,P的分母是分類器給出的正例集合;R的分母是數據集中所有的正例集合。兩個率分別反應模型查的準不準,和,查的全不全。um這個感覺也有點難記,可以這樣記召回率:因爲有FN全負面信息,所以要“召回”。

 實際模型對每個樣本的預測結果都是0-1之間連續的,因此調整這個閾值就可以獲得每個樣本變動後對應的混淆矩陣(可以視爲考察閾值對模型分辨結果的影響)。此時對應的多個P-R點可以進行繪製成爲PR曲線,類似下圖這樣。曲線下部所圍成的面積越大代表模型性能越好。也可以使用平衡點來度量學習器的好壞,在平和點處P=R。

 F1參數本質是對兩個率進行調和平均運算,更加關注較小值對最終結果的影響。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章