roc曲線

橫座標 FPR，縱座標 TPR 怎麼計算呢？

acc = (TP+TN) / (TP+TN+FP+FN)

$TPR=\frac{TP}{TP+FN}$ 所有正例中判斷正確的比例

$FPR=\frac{FP}{FP+TN}$ 所有負例中判斷錯誤的比例

在roc曲線中（0,0）點 TPR=0，FPR=0說明正例全部判斷爲負例，負例全部判斷正確，即所有都判定爲負例，對於sigmoid來說，相當於閾值變爲>=1的數，小於1的都爲負例；

在（1,1）點，可知將所有樣本判斷爲正例，對於sigmoid來說，相當於閾值爲 <=0的數，大於0的都爲正例；

在（0,1）點，FPR=0, TPR=1，說明所有樣本都判斷正確了，是完美分類器；

在上面auc曲線圖中，三條曲線分表表示三個模型閾值在0~1之間調整時形成的點所連接構成的曲線；

可知越靠近（0,1）點的模型越好，但是在FPR的不同位置劃線時，可以看到模型不一定一直都好，那怎麼辦呢？

怎麼找到綜合指標呢？可以看到左側紅色曲線表示完美分類器的曲線，可以看到完美分類器所佔的面積最大爲1，

因此可以根據模型roc曲線所佔用的面積來評判好壞，即auc面積；

auc面積

AUC（Area Under Curve）被定義爲ROC曲線下與座標軸圍成的面積，顯然這個面積的數值不會大於1

模型中爲了規避風險，往往會更改閾值，此時auc就發揮作用了

auc面積越大，模型越好，

auc面積怎麼計算呢？

一種近似算法爲： $\frac{\sum_{P}^{index}rank-\frac{N(N+1)}{2}}{P*N}$

P：Positive 正例樣本數目；

N：Negative 負例樣本數目；

$\sum_{P}^{index}rank$ 表示將預測結果（所有樣本的預測分值）按從小到大排序，然後取真正正例的序號加和；

可見若一個模型不好，那麼正例就會判斷爲負例，分值較小，排序後索引號也小，最後auc就小；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.