教你使用4 個樣本就可以畫出 ROC 曲線

ROC 曲線,作爲評價機器學習模型敏感度的一條重要曲線,在分類任務評價機制中應用較多。

但是很多朋友對於 ROC 曲線的理解還是有些模糊,心想着 x 軸是 FPR, y 軸是 TPR, 組條曲線有些神祕。

今天,咱們用 4 個樣本,使用邏輯迴歸,分類閾值分別從 0.,0.2,0.4,0.6,0.8,1.0,依次變化,分別求出對應分類閾值的 FRP 和 TPR 值。

這樣不就得到 6 個 (FRP,TPR) 點,組個曲線,不就是 ROC 曲線嗎!

# 有監督任務,四個樣本的實際值:

target = np.array([1,0,1,0])

計算公式:

def TPR(TP,FN):
    return TP / (TP + FN)

def FPR(FP,TN):
    return FP / (FP + TN)

使用邏輯迴歸 Logistic regression,得到 4 個樣本的概率分佈爲:[0.8,0.6,0.4,0.2]

當分類閾值參數 alpha 爲 0.0 時

y0 = np.array([1,1,1,1])
p00 = [TPR(2,0),FPR(2,0)]
p00

結果:

[1.0, 1.0]

當分類閾值參數 alpha 爲 0.2 時

# 同理,假如分類閾值 alpha = 0.2
#
y02 = np.array([1,1,1,1])
p02 = [TPR(2,0),FPR(2,0)]
p02

結果:

[1.0, 1.0]

當分類閾值參數 alpha 爲 0.4 時

target = np.array([1,0,1,0])
y04 = np.array([1,1,1,0])
p04 = [TPR(2,0),FPR(1,1)]
p04

結果:

[1.0, 0.5]

當分類閾值參數 alpha 爲 0.6 時

# 同理,假如分類閾值 alpha = 0.6
#
target = np.array([1,0,1,0])
y06 = np.array([1,1,0,0])
p06 = [TPR(1,1),FPR(1,1)]
p06

結果:

[0.5, 0.5]

當分類閾值參數 alpha 爲 0.8 時

# 同理,假如分類閾值 alpha = 0.8
#
target = np.array([1,0,1,0])
y08 = np.array([1,0,0,0])
p08 = [TPR(1,1),FPR(0,2)]
p08

結果:

[0.5, 0.0]

當分類閾值參數 alpha 爲 1.0 時

# 同理,假如分類閾值 alpha = 1.0
#
target = np.array([1,0,1,0])
y10 = np.array([0,0,0,0])
p10 = [TPR(0,2),FPR(0,2)]
p10

結果:

[0.0, 0.0]

繪製以上 6 個點,得到 ROC 曲線:

npxy = np.array(xy)
fpr = npxy[:,1]
tpr = npxy[:,0]
plt.scatter(fpr,tpr)
plt.plot(fpr,tpr)
plt.grid()

alphas = [0.0,0.2,0.4,0.6,0.8,1.0]
for alpha,x,y in zip(alphas,fpr,tpr):
    plt.annotate("alpha=%s" % (alpha,), xy=(x,y), xytext=(-20, 10), textcoords='offset points')

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章