下邊簡單談一下自己的理解:
先說一下ks
ks值和ks曲線:
將所有樣本根據分數值從低到高排序(即壞賬率從高到低)均分成10組,分別計算這10組的實際好樣本數、壞樣本數、累積好樣本數、累積壞樣本數、累積好樣本數佔比、累積壞樣本數佔比,差值。其中實際好壞樣本數分別爲該組內的好壞樣本數,累積好壞樣本數爲該組累積的好壞樣本數,累積好壞樣本數佔比爲累積好壞樣本數佔總好壞樣本數的比值,差值爲累積壞樣本數佔比減去累計好樣本數佔比。KS指標爲差值絕對值的最大值。計算示例如下:
橫座標爲每一組,作圖:
我們將壞客戶作爲正樣本,計算累積正樣本率(cumsum_bad)和累積負樣本率(cumsum_good),累積正樣本率和累積負樣本率差的最大值就是KS值。KS曲線見下圖。
由於按照正樣本(bad)預測概率降序排列,所以前面的組別,bad的佔比更大,累計正樣本率更高,但爲正(bad)的概率是遞減的;相反排在前面的樣本爲負(good)的概率更小,但爲負(good)的概率遞增。所以圖像如上所示。
roc曲線和auc值
先看一下混淆矩