教你使用4 個樣本就可以畫出 ROC 曲線

原創

Sim1480

2020-04-05 04:54

ROC 曲線，作爲評價機器學習模型敏感度的一條重要曲線，在分類任務評價機制中應用較多。

但是很多朋友對於 ROC 曲線的理解還是有些模糊，心想着 x 軸是 FPR, y 軸是 TPR, 組條曲線有些神祕。

今天，咱們用 4 個樣本，使用邏輯迴歸，分類閾值分別從 0.,0.2,0.4,0.6,0.8,1.0，依次變化，分別求出對應分類閾值的 FRP 和 TPR 值。

這樣不就得到 6 個 (FRP,TPR) 點，組個曲線，不就是 ROC 曲線嗎！

# 有監督任務，四個樣本的實際值：

target = np.array([1,0,1,0])

計算公式：

def TPR(TP,FN):
    return TP / (TP + FN)

def FPR(FP,TN):
    return FP / (FP + TN)

使用邏輯迴歸 Logistic regression，得到 4 個樣本的概率分佈爲：[0.8,0.6,0.4,0.2]

當分類閾值參數 alpha 爲 0.0 時：

y0 = np.array([1,1,1,1])
p00 = [TPR(2,0),FPR(2,0)]
p00

結果：

[1.0, 1.0]

當分類閾值參數 alpha 爲 0.2 時：

# 同理，假如分類閾值 alpha = 0.2
#
y02 = np.array([1,1,1,1])
p02 = [TPR(2,0),FPR(2,0)]
p02

結果：

[1.0, 1.0]

當分類閾值參數 alpha 爲 0.4 時：

target = np.array([1,0,1,0])
y04 = np.array([1,1,1,0])
p04 = [TPR(2,0),FPR(1,1)]
p04

結果：

[1.0, 0.5]

當分類閾值參數 alpha 爲 0.6 時：

# 同理，假如分類閾值 alpha = 0.6
#
target = np.array([1,0,1,0])
y06 = np.array([1,1,0,0])
p06 = [TPR(1,1),FPR(1,1)]
p06

結果：

[0.5, 0.5]

當分類閾值參數 alpha 爲 0.8 時：

# 同理，假如分類閾值 alpha = 0.8
#
target = np.array([1,0,1,0])
y08 = np.array([1,0,0,0])
p08 = [TPR(1,1),FPR(0,2)]
p08

結果：

[0.5, 0.0]

當分類閾值參數 alpha 爲 1.0 時：

# 同理，假如分類閾值 alpha = 1.0
#
target = np.array([1,0,1,0])
y10 = np.array([0,0,0,0])
p10 = [TPR(0,2),FPR(0,2)]
p10

結果：

[0.0, 0.0]

繪製以上 6 個點，得到 ROC 曲線：

npxy = np.array(xy)
fpr = npxy[:,1]
tpr = npxy[:,0]
plt.scatter(fpr,tpr)
plt.plot(fpr,tpr)
plt.grid()

alphas = [0.0,0.2,0.4,0.6,0.8,1.0]
for alpha,x,y in zip(alphas,fpr,tpr):
    plt.annotate("alpha=%s" % (alpha,), xy=(x,y), xytext=(-20, 10), textcoords='offset points')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

教你使用4 個樣本就可以畫出 ROC 曲線

你覺得Python慢，那爲啥還有大公司一直在用呢？

整理一份可以讓 Python 變得更快的工具清單

我用pandas製作股票數據分析工具！!

數據分析的層次級別，看看你屬於哪一檔？

數據人必看！微信又添新功能！這個微信羣可以學英語，而且全程免費

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結