目錄
roc曲線
橫座標 FPR,縱座標 TPR 怎麼計算呢?
預測正例 P | 預測負例 N | |
真正正例 T | TP | FN |
真正負例 F | FP | TN |
acc = (TP+TN) / (TP+TN+FP+FN)
所有正例中判斷正確的比例
所有負例中判斷錯誤的比例
在roc曲線中 (0,0)點 TPR=0,FPR=0說明正例全部判斷爲負例,負例全部判斷正確,即所有都判定爲 負例,對於sigmoid來說,相當於閾值變爲>=1的數,小於1的都爲負例;
在(1,1)點,可知將所有樣本判斷爲 正例,對於sigmoid來說,相當於閾值爲 <=0的數,大於0的都爲正例;
在(0,1)點,FPR=0, TPR=1,說明所有樣本都判斷正確了,是完美分類器;
在上面auc曲線圖中,三條曲線分表表示三個模型閾值在0~1之間調整時形成的點所連接構成的曲線;
可知 越靠近(0,1)點的模型越好,但是在FPR的不同位置劃線時,可以看到模型不一定一直都好,那怎麼辦呢?
怎麼找到綜合指標呢?可以看到左側紅色曲線表示完美分類器的曲線,可以看到完美分類器所佔的面積最大爲1,
因此可以根據模型roc曲線所佔用的面積來評判好壞,即auc面積;
auc面積
AUC(Area Under Curve)被定義爲ROC曲線下與座標軸圍成的面積,顯然這個面積的數值不會大於1
模型中爲了規避風險,往往會更改閾值,此時auc就發揮作用了
auc面積越大,模型越好,
auc面積怎麼計算呢?
一種近似算法爲:
P:Positive 正例樣本數目;
N:Negative 負例樣本數目;
表示將預測結果(所有樣本的預測分值)按從小到大排序,然後取 真正正例的序號加和;
可見若一個模型不好,那麼正例就會判斷爲負例,分值較小,排序後索引號也小,最後auc就小;