理解AUC和ROC曲線

一、ROC曲線
ROC曲線:受試者工作特徵曲線
出自一個軍事案例;雷達兵爲了傳遞更準確的預報需要區分觸發雷達信號的是敵人還是飛鳥,但是過於謹慎的雷達兵的誤報率較高,膽大的則漏報率更高。爲了研究每個雷達兵預報的準確性,兵長彙總每個雷達兵的預報特點,以雷達兵準確預報的概率(敏感性)爲縱座標,以誤報概率(特異性)爲橫座標,繪製在二維座標中。由於每個雷達兵預報標準不同所以得到敏感性和特異性的組合也不同,,彙總後剛好是一條曲線,這條曲線就是ROC曲線,這也是爲什麼叫受試者工作特徵曲線的原因。
總結:若給定一個二元分類模型(相當於雷達兵)和其閾值(雷達兵判斷的標準),對多個樣本進行預測,計算和彙總每個預測值與實際值的關係。ROC曲線是將每個分類模型及其閾值最終的僞陽性率和真陽性率(相當於計算每個雷達兵預報的準確性)體現在,以僞陽性率(FPR)爲x軸,真陽性率(TPR)爲y軸的二維座標中,形成的曲線。越靠近左上角的點準確率越高,反之越靠近右上角準確率越低。
理解AUC和ROC曲線

理解二元分類模型和閾值
一個考試看做一個二元分類模型,它的結果只有兩個:及格和不及格。閾值是60,是分類模型判斷的準備,若高於60則及格,低於閾值則不及格。我們現在有無數場考試,我希望通過考試篩選出合格的人,剔除不合格的人,並且漏篩和錯篩人數最少,閾值應設置在多少呢?
每種閾值的設定會得出不同的FPR和TPR,以此研究特定模型的最佳閾值
若要比較不同分類模型的分類效果時需要既定不變的閾值

二、AUC
AUC(Area Under Curve):即ROC曲線與x座標圍成的面積,做爲模型優劣的指標
①由於AUC是FPR和TPR兩個比率圍成的面積,取值一定在[0,1]
②AUC值越大的分類器,正確率越高,AUC在 0.5~0.7時有較低準確性,AUC在0.7~0.9時有一定準確性,AUC在0.9以上時有較高準確性
AUC = 1,是完美分類器,採用這個預測模型時,存在至少一個閾值能得出完美預測。絕大多數預測的場合,不存在完美分類器。
0.5 < AUC < 1,優於隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。
AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。
AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章