機器學習分類器評估指標:ROC和AUC

1 二分類評估指標

針對一個二分類問題,將實例分成正類(postive)或者負類(negative)。但是實際中分類時,會出現四種情況:

(1)若一個實例是正類並且被預測爲正類,即爲真正類(True Postive TP)

(2)若一個實例是正類,但是被預測成爲負類,即爲假負類(False Negative FN)

(3)若一個實例是負類,但是被預測成爲正類,即爲假正類(False Postive FP)

(4)若一個實例是負類,但是被預測成爲負類,即爲真負類(True Negative TN)

TP:正確的肯定數目

FN:漏報,沒有找到正確匹配的數目

FP:誤報,沒有的匹配不正確

TN:正確拒絕的非匹配數目

混淆矩陣如下,1代表正類,0代表負類:

2 ROC和AUC

roc曲線:接收者操作特徵(receiveroperating characteristic),roc曲線上每個點反映着對同一信號刺激的感受性。

橫軸:負正類率(false postive rate FPR)特異度,劃分實例中所有負例佔所有負例的比例;

縱軸:真正類率(true postive rate TPR)靈敏度

假設採用邏輯迴歸分類器,其給出針對每個實例爲正類的概率,那麼通過設定一個閾值如0.6,概率大於等於0.6的爲正類,小於0.6的爲負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應座標點。隨着閾值的逐漸減小,越來越多的實例被劃分爲正類,但是這些正類中同樣也摻雜着真正的負實例,即TPR和FPR會同時增大。閾值最大時,對應座標點爲(0,0),閾值最小時,對應座標點(1,1)。

如下面這幅圖,(a)圖中實線爲ROC曲線,線上每個點對應一個閾值。

 

 

理想目標:TPR=1,FPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45度對角線越好,Sensitivity、Specificity越大效果越好。

ROC計算過程如下:
1)首先每個樣本都需要有一個label值,並且還需要一個預測的score值(取值0到1);
2)然後按這個score對樣本由大到小進行排序,假設這些數據位於表格中的一列,從上到下依次降序;
3)現在從上到下按照樣本點的取值進行劃分,位於分界點上面的我們把它歸爲預測爲正樣本,位於分界點下面的歸爲負樣本;
4)分別計算出此時的TPR和FPR,然後在圖中繪製(FPR, TPR)點。

AUC(area under the curve)就是ROC曲線下方的面積,如下圖所示,陰影部分面積即爲AUC的值:

AUC量化了ROC曲線表達的分類能力。這種分類能力是與概率、閾值緊密相關的,分類能力越好(AUC越大),那麼輸出概率越合理,排序的結果越合理。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章