PR曲線和ROC曲線理解2---進階理解

前段時間寫了ROC曲線和PR曲線的思想,這次做一些延伸:

PR曲線計算範圍:大於閥值的那些樣本計算得到。

而ROC曲線計算範圍:根據閥值點對全量樣本判斷,進而依據全量樣本計算。

 

1、什麼是BEP(best event point),怎麼選擇

BEP是PR曲線中P=R時對應的閥值點,即在哪一個閥值下,精確率p和召回率r會相等。結合pr曲線趨勢理解,bep越大,說明pr曲線越靠近右上角,pr曲線下方面積越大。

總結起來:表面上來說,bep取值爲p=r下的閥值點,實際是衡量pr曲線趨向右上角的程度。

 

2、BEP和F1的關係

(理解方式1)

pr曲線由很多對(p、r)點所組成,其中每個(p、r)對痘對應一個f1值。而bep是依據整個pr曲線趨勢得到。所以,f1

值是一個局部指標,衡量模型在指定閥值點下的預測能力,而bep是一個全局指標,衡量模型在各個閥值點下的全局預測能力。

(理解方式2)

從實際數據挖掘角度來說,由於一般使用默認閥值,所以數據挖掘人員一般只會得到一個F1值,這是F1又可以認爲是一個全局模型指標,一個對應默認閥值點下的全局模型指標。而bep實際是p=r處的閥值點,所以bep又可以理解爲一個局部指標,一個刻畫pr曲線趨向於右上角的局部指標。

 

局部指標和全局指標是相對而言。

 

3、PR曲線下面面積的含義

pr曲線下方類似於roc曲線的下方面積AUC,但含義不一樣。平均精確率(average precision)可以認爲是pr曲線下方的近似面積,計算方式:

ap = sum_i{(R_i-R-[i-1])*P_i}

p_i的權重是前後2次的召回率之差,所有的權重之和等於1,這時ap其實是各個閥值下precision的加權平均值。

ap爲什麼是pr曲線下方面積?

R_i-R_[i-1]可以認爲是矩陣的寬,而p_i可以認爲是矩陣的長,ap就是把pr曲線縱向切分爲很多個多邊形,然後求和。

 

4、ROC曲線下方的面積AUC的物理意義爲什麼是“任選一個正樣本和一個負樣本,正樣本得分大於負樣本得分的概率”?

 

5、ROC曲線的最佳切分點怎麼選取?

 

 

-- 未完待續 --

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章