Python连续变量分箱--woe值单调分箱

最近上传了一个变量分箱的方法到pypi,这个包主要有以下说明:

  1. 缺失值单独一箱,不论缺失的数量多少;
  2. 生成的分箱woe值是单调的,后续有时间会迭代U型分箱的版本;
  3. 会有分箱最小样本数占比,类似决策树的最小叶节点占比;
  4. 分箱成功的变量才会保留,有可能失败的情况是找不出同时满足上述2和3的分箱;

具体的变量分箱原理见之前的博客
可以通过pip install woe-bin 安装。最新版本0.1.2

应用范例如下:

from woe_bin import woe_bin

wb = woe_bin(indata=dtrain, target='target', min_group_rate=0.05, max_bin=6)
mapiv = wb.split_data()
mapiv1 = mapiv[mapiv['iv'] >= 0.02]
#转为woe格式
w_tab = wb.apply_woetab(dtrain, mapiv1)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章