ROC曲線特徵

An Introduction to ROC Analysis [T. Fawcett, 2005]

ROC

ROC是以FPR爲X軸,以TPR爲Y軸的曲線。表示的是模型的效果(由TPR表示)和損失(由FPR代表)的相對關係和取捨概況。
分類器對不同樣本給出了更偏向正例還是反例的的概率值,然後這些概率值可以和一些人爲設定的閾值比較從而得出最終的分類結果。例如,大於閾值的就是正例,小於閾值的就是反例。可以看出,不同的閾值設定對最終結果有很大的影響,ROC曲線表示的就是在不同閾值的設定下,分類結果的呈現。

ROC特點

  • 左下角的點(0,0)代表了分類器從來不做任何分類,既沒有正例也沒有反例,既沒有正確的分類,也沒有錯誤的分類;
  • 右上角的點(1,1)代表了分類器無腦對樣本分正例,所有的樣本都被分爲了正例;
  • 右下角的點(1,0)代表了分類器無腦分反例;
  • 左上角的點(0,1)代表了完美的分類器,全部分類正確,ROC所以越是靠近左上角,說明分類器的效果越好;
  • ROC的對角線代表了隨機猜測的結果。

ROC優點

ROC對數據的分佈情況不敏感,和P、R、F1等等指標用數值衡量不同,ROC使用的是“率”的概念,所以就對數值變化免疫了。

下圖是樣本分類發生大幅度變化時,ROC和P-R曲線的表現:
左面是ROC曲線,右面是P-R曲線,在分類發生大幅度變化的時候,P-R曲線發生了明顯的變化

AUC

AUC曲線是指ROC曲線下的面積。
- 其取值應該在0.5到1之間,小於0.5的分類器表現還不如隨機的(ROC的對角線),如果真的還不如0.5,那麼反過來就好了…
- 如果用面積的概念來看待AUC,那麼AUC的計算就是一個個矩形的加總。但是當樣本量增加的時候,計算起來會很複雜。

AUC是一個正負樣本排序的概率值,具體來講,是分類器將隨機正例排序高於隨機反例的概率

the AUC of a classifier is equivalent to the probability that the classifier will rank a randomly chosen positive instance higher than a randomly chosen negative instance

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章