正確理解查準率與查全率、auc值

在周志華老師的西瓜書裏面,將這兩個詞分別翻譯爲查準率(precision)和查全率(recall),這樣可以顧名思義,瞭解到這兩個詞的意思,查準率就是對於所有機器判定爲正的裏面,有多大的比例是真的正樣本,寫成公式就是
P=TP/(TP+FP)

其中TP,FP分別表示true positive和false positive,即所謂真陽性和假陽性,而對於查全率,顧名思義,就是實際的正樣本中,有多大比例被檢出了,寫成公式就是:
R=TP/(TP+FN)

通常結合準確率和召回率會更加方便,這個指標叫做“F1 值”,特別是當你需要一個簡單的方法去比較兩個分類器的優劣的時候。F1 值是準確率和召回率的調和平均。普通的平均值平等地看待所有的值,而調和平均會給小的值更大的權重。所以,要想分類器得到一個高的 F1 值,需要召回率和準確率同時高。

F1 支持那些有着相近準確率和召回率的分類器。這不會總是你想要的。有的場景你會絕大程度地關心準確率,而另外一些場景你會更關心召回率。舉例子,如果你訓練一個分類器去檢測視頻是否適合兒童觀看,你會傾向選擇那種即便拒絕了很多好視頻、但保證所保留的視頻都是好(高準確率)的分類器,而不是那種高召回率、但讓壞視頻混入的分類器(這種情況下你或許想增加人工去檢測分類器選擇出來的視頻)。另一方面,加入你訓練一個分類器去檢測監控圖像當中的竊賊,有着 30% 準確率、99% 召回率的分類器或許是合適的(當然,警衛會得到一些錯誤的報警,但是幾乎所有的竊賊都會被抓到)。

不幸的是,你不能同時擁有兩者。增加準確率會降低召回率,反之亦然。這叫做準確率與召回率之間的折衷。

另外一個是負正類率(false positive rate, FPR),計算公式爲

FPR = FP / (FP + TN)

計算的是分類器錯認爲正類的負實例佔所有負實例的比例。

這個是ROC曲線的

auc值直觀解釋
假設總共有(m+n)個樣本,其中正樣本m個,負樣本n個,總共有mn個樣本對,計數,正樣本預測爲正樣本的概率值大於負樣本預測爲正樣本的概率值記爲1,累加計數,然後除以(mn)就是AUC的值
隨機挑選一個正樣本以及一個負樣本,當前的分類算法根據計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值。這裏的score值就是預測爲正的概率的值,排在前面表示的是正樣本的預測爲正的概率值大於負樣本的預測爲正的概率值

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章