最近上傳了一個變量分箱的方法到pypi,這個包主要有以下說明:
- 缺失值單獨一箱,不論缺失的數量多少;
- 生成的分箱woe值是單調的,後續有時間會迭代U型分箱的版本;
- 會有分箱最小樣本數佔比,類似決策樹的最小葉節點佔比;
- 分箱成功的變量纔會保留,有可能失敗的情況是找不出同時滿足上述2和3的分箱;
具體的變量分箱原理見之前的博客。
可以通過pip install woe-bin 安裝。最新版本0.1.2
應用範例如下:
from woe_bin import woe_bin
wb = woe_bin(indata=dtrain, target='target', min_group_rate=0.05, max_bin=6)
mapiv = wb.split_data()
mapiv1 = mapiv[mapiv['iv'] >= 0.02]
#轉爲woe格式
w_tab = wb.apply_woetab(dtrain, mapiv1)