最近上传了一个变量分箱的方法到pypi,这个包主要有以下说明:
- 缺失值单独一箱,不论缺失的数量多少;
- 生成的分箱woe值是单调的,后续有时间会迭代U型分箱的版本;
- 会有分箱最小样本数占比,类似决策树的最小叶节点占比;
- 分箱成功的变量才会保留,有可能失败的情况是找不出同时满足上述2和3的分箱;
具体的变量分箱原理见之前的博客。
可以通过pip install woe-bin 安装。最新版本0.1.2
应用范例如下:
from woe_bin import woe_bin
wb = woe_bin(indata=dtrain, target='target', min_group_rate=0.05, max_bin=6)
mapiv = wb.split_data()
mapiv1 = mapiv[mapiv['iv'] >= 0.02]
#转为woe格式
w_tab = wb.apply_woetab(dtrain, mapiv1)