Python連續變量分箱--woe值單調分箱

最近上傳了一個變量分箱的方法到pypi,這個包主要有以下說明:

  1. 缺失值單獨一箱,不論缺失的數量多少;
  2. 生成的分箱woe值是單調的,後續有時間會迭代U型分箱的版本;
  3. 會有分箱最小樣本數佔比,類似決策樹的最小葉節點佔比;
  4. 分箱成功的變量纔會保留,有可能失敗的情況是找不出同時滿足上述2和3的分箱;

具體的變量分箱原理見之前的博客
可以通過pip install woe-bin 安裝。最新版本0.1.2

應用範例如下:

from woe_bin import woe_bin

wb = woe_bin(indata=dtrain, target='target', min_group_rate=0.05, max_bin=6)
mapiv = wb.split_data()
mapiv1 = mapiv[mapiv['iv'] >= 0.02]
#轉爲woe格式
w_tab = wb.apply_woetab(dtrain, mapiv1)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章