機器學習分類器評估指標：ROC和AUC

原創

nathan_deep

2020-07-07 02:47

1 二分類評估指標

針對一個二分類問題，將實例分成正類(postive)或者負類(negative)。但是實際中分類時，會出現四種情況：

(1)若一個實例是正類並且被預測爲正類，即爲真正類(True Postive TP)

(2)若一個實例是正類，但是被預測成爲負類，即爲假負類(False Negative FN)

(3)若一個實例是負類，但是被預測成爲正類，即爲假正類(False Postive FP)

(4)若一個實例是負類，但是被預測成爲負類，即爲真負類(True Negative TN)

TP:正確的肯定數目

FN:漏報，沒有找到正確匹配的數目

FP:誤報，沒有的匹配不正確

TN:正確拒絕的非匹配數目

混淆矩陣如下，1代表正類，0代表負類：

2 ROC和AUC

roc曲線：接收者操作特徵(receiveroperating characteristic),roc曲線上每個點反映着對同一信號刺激的感受性。

橫軸：負正類率(false postive rate FPR)特異度，劃分實例中所有負例佔所有負例的比例；

縱軸：真正類率(true postive rate TPR)靈敏度

假設採用邏輯迴歸分類器，其給出針對每個實例爲正類的概率，那麼通過設定一個閾值如0.6，概率大於等於0.6的爲正類，小於0.6的爲負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應座標點。隨着閾值的逐漸減小，越來越多的實例被劃分爲正類，但是這些正類中同樣也摻雜着真正的負實例，即TPR和FPR會同時增大。閾值最大時，對應座標點爲(0,0),閾值最小時，對應座標點(1,1)。

如下面這幅圖，(a)圖中實線爲ROC曲線，線上每個點對應一個閾值。

理想目標：TPR=1，FPR=0,即圖中(0,1)點，故ROC曲線越靠攏(0,1)點，越偏離45度對角線越好，Sensitivity、Specificity越大效果越好。

ROC計算過程如下：
1)首先每個樣本都需要有一個label值，並且還需要一個預測的score值（取值0到1）;
2)然後按這個score對樣本由大到小進行排序，假設這些數據位於表格中的一列，從上到下依次降序;
3)現在從上到下按照樣本點的取值進行劃分，位於分界點上面的我們把它歸爲預測爲正樣本，位於分界點下面的歸爲負樣本;
4)分別計算出此時的TPR和FPR，然後在圖中繪製（FPR, TPR）點。

AUC（area under the curve）就是ROC曲線下方的面積，如下圖所示，陰影部分面積即爲AUC的值：

AUC量化了ROC曲線表達的分類能力。這種分類能力是與概率、閾值緊密相關的，分類能力越好（AUC越大），那麼輸出概率越合理，排序的結果越合理。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習分類器評估指標：ROC和AUC

1 二分類評估指標

2 ROC和AUC

DAPPER 事務 TRANSACTION

基於用戶的協同過濾算法(UserCF)

Q Learning 和SARSA算法

樸素貝葉斯算法(Naive Bayes) 原理總結

論文：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

基於物品的協同過濾算法(ItemCF)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結