AI——ROC、AUC 學習總結

 

目錄

roc曲線

auc面積


roc曲線

 

橫座標 FPR,縱座標 TPR 怎麼計算呢?

  預測正例 P 預測負例 N
真正正例 T TP FN
真正負例 F FP TN

acc = (TP+TN) / (TP+TN+FP+FN)

TPR=\frac{TP}{TP+FN}        所有正例中判斷正確的比例

FPR=\frac{FP}{FP+TN}        所有負例中判斷錯誤的比例

在roc曲線中 (0,0)點 TPR=0,FPR=0說明正例全部判斷爲負例,負例全部判斷正確,即所有都判定爲 負例,對於sigmoid來說,相當於閾值變爲>=1的數,小於1的都爲負例;

在(1,1)點,可知將所有樣本判斷爲 正例,對於sigmoid來說,相當於閾值爲 <=0的數,大於0的都爲正例;

在(0,1)點,FPR=0, TPR=1,說明所有樣本都判斷正確了,是完美分類器;

在上面auc曲線圖中,三條曲線分表表示三個模型閾值在0~1之間調整時形成的點所連接構成的曲線;

可知 越靠近(0,1)點的模型越好,但是在FPR的不同位置劃線時,可以看到模型不一定一直都好,那怎麼辦呢?

怎麼找到綜合指標呢?可以看到左側紅色曲線表示完美分類器的曲線,可以看到完美分類器所佔的面積最大爲1,

因此可以根據模型roc曲線所佔用的面積來評判好壞,即auc面積;

 

auc面積

AUC(Area Under Curve)被定義爲ROC曲線下與座標軸圍成的面積,顯然這個面積的數值不會大於1

模型中爲了規避風險,往往會更改閾值,此時auc就發揮作用了

auc面積越大,模型越好,

auc面積怎麼計算呢?

一種近似算法爲:\frac{\sum_{P}^{index}rank-\frac{N(N+1)}{2}}{P*N}

P:Positive 正例樣本數目;

N:Negative 負例樣本數目;

\sum_{P}^{index}rank 表示將預測結果(所有樣本的預測分值)按從小到大排序,然後取 真正正例的序號加和;

可見若一個模型不好,那麼正例就會判斷爲負例,分值較小,排序後索引號也小,最後auc就小;

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章