機器學習(周志華)如何理解ROC曲線的繪製過程並證明排序損失等於ROC曲線上的面積

課本給出對於排序損失的定義後,並沒有詳細論述爲何就等同於ROC曲線上的面積,希望下面的內容對你理解這部分有所幫助!

 

如何理解描繪的過程呢?

用m+個正例與m-反例,由於將分類閾值依次設爲每個樣本的預測值,即每次都猜測爲正例,因此結果不是真正例就是假正例

若爲真正例,則上移1/m+單位;

若爲假正例,則右移1/m-單位。

這樣恰恰說明了爲什麼橫軸就表示FPR,縱軸就表示TPR。

經過(m+ add m-)次的猜測,就得到從(0,0)到(1,1)的折線ROC。

對每個點作關於x,y軸的直線,將該區域分成 m+ mulpitly m- 塊小矩形。

研究ROC曲線之上面積就等同於計算有多少個小矩形。

 

下面通過研究一個5+5樣本的例子加以理解。

假設有以下按預測值排序的測試用例,由於排序的原因,會有以下4種情況。

0.9,0.8,0.7,0.5,0.5,0.4,0.3,0.3,0.2,0,1)

0.9,0.8,0.7,0.5,0.5,0.4,0.3,0.3,0.2,0,1)

0.9,0.8,0.7,0.5,0.5,0.4,0.3,0.3,0.2,0,1)

0.9,0.8,0.7,0.5,0.5,0.4,0.3,0.3,0.2,0,1)

根據繪製的過程獲得4條類似但不同的ROC線。

 

可以看到排序會導致圖中灰色區域的誤差,

這也說明爲什麼需要考慮f(x+)=f(x-)的情況,每一對正反例的面積期望爲1/2的矩形面積。

 

ROC曲線上方的面積等於m-塊底爲1/m-,高爲1/m+ *(剩餘正例數),考慮排序帶來的影響。

通過比較每一對正反例的預測值,得到每一個反例後正例的數量。

 

因此AUC=1-lrank得證。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章