ROC曲線面積計算

在binary classification model中,ROC或AUC作爲一種常用的技術,有兩個優點:不隨真實情況的事件改變、不隨分類錯誤的相對成本改變,因此當future incidents、relative cost of classification errors或兩者都不穩定或未知時,ROC是很好的選擇。

AUC的值在0.5-1之間,0.5表示完全不確定,分類隨機,一般0.65-0.85之間表示模型較好。

建立binary classification model後,我們的目的是vary parameters to maximize ROC on a sample set with known outcome,這個set叫做training set。


一個計算ROC曲線面積的例子:


共有7個事件,對結果(0/1)預測,依次評分並從高到底排序。

從高於最高分到最低分依次爲閾值,計算false positive rate(false positives/total negative)和true positive rate(true postives/total positive):


將false positive rate和true positive rate分別作爲X軸和Y軸座標,作圖:


計算曲線下面積爲0.917。

注意,每兩個點之間只有橫座標或縱座標移動,因爲每一次下移閾值時,閾值以上爲positive,要麼對要麼錯,是將false negative重新分類爲true positive或將true negative重新分類爲false positive。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章