ROC 曲線,作爲評價機器學習模型敏感度的一條重要曲線,在分類任務評價機制中應用較多。
但是很多朋友對於 ROC 曲線的理解還是有些模糊,心想着 x 軸是 FPR
, y 軸是 TPR
, 組條曲線有些神祕。
今天,咱們用 4 個樣本,使用邏輯迴歸,分類閾值分別從 0.,0.2,0.4,0.6,0.8,1.0,依次變化,分別求出對應分類閾值的 FRP 和 TPR 值。
這樣不就得到 6 個 (FRP,TPR) 點,組個曲線,不就是 ROC 曲線嗎!
# 有監督任務,四個樣本的實際值:
target = np.array([1,0,1,0])
計算公式:
def TPR(TP,FN):
return TP / (TP + FN)
def FPR(FP,TN):
return FP / (FP + TN)
使用邏輯迴歸 Logistic regression,得到 4 個樣本的概率分佈爲:[0.8,0.6,0.4,0.2]
當分類閾值參數 alpha 爲 0.0 時:
y0 = np.array([1,1,1,1])
p00 = [TPR(2,0),FPR(2,0)]
p00
結果:
[1.0, 1.0]
當分類閾值參數 alpha 爲 0.2 時:
# 同理,假如分類閾值 alpha = 0.2
#
y02 = np.array([1,1,1,1])
p02 = [TPR(2,0),FPR(2,0)]
p02
結果:
[1.0, 1.0]
當分類閾值參數 alpha 爲 0.4 時:
target = np.array([1,0,1,0])
y04 = np.array([1,1,1,0])
p04 = [TPR(2,0),FPR(1,1)]
p04
結果:
[1.0, 0.5]
當分類閾值參數 alpha 爲 0.6 時:
# 同理,假如分類閾值 alpha = 0.6
#
target = np.array([1,0,1,0])
y06 = np.array([1,1,0,0])
p06 = [TPR(1,1),FPR(1,1)]
p06
結果:
[0.5, 0.5]
當分類閾值參數 alpha 爲 0.8 時:
# 同理,假如分類閾值 alpha = 0.8
#
target = np.array([1,0,1,0])
y08 = np.array([1,0,0,0])
p08 = [TPR(1,1),FPR(0,2)]
p08
結果:
[0.5, 0.0]
當分類閾值參數 alpha 爲 1.0 時:
# 同理,假如分類閾值 alpha = 1.0
#
target = np.array([1,0,1,0])
y10 = np.array([0,0,0,0])
p10 = [TPR(0,2),FPR(0,2)]
p10
結果:
[0.0, 0.0]
繪製以上 6 個點,得到 ROC 曲線:
npxy = np.array(xy)
fpr = npxy[:,1]
tpr = npxy[:,0]
plt.scatter(fpr,tpr)
plt.plot(fpr,tpr)
plt.grid()
alphas = [0.0,0.2,0.4,0.6,0.8,1.0]
for alpha,x,y in zip(alphas,fpr,tpr):
plt.annotate("alpha=%s" % (alpha,), xy=(x,y), xytext=(-20, 10), textcoords='offset points')