利用python實現對連續特徵的分箱操作(數據離散化)

1. 數據分箱

1.1 等區間分箱

將連續變量的值進行獲取,然後利用pandas的cut函數進行等區間分箱。
如下代碼,獲取值A2_values ,並等數值區間分爲6類爲[0,1,2,3,4,5];
(cut在操作時,統計了一維數組的最小、最大值,得到一個區間長度,因爲需要劃分6個區間)
在這裏插入圖片描述

1.2 等頻分箱

將連續變量在[min,max]區間內,等數量地進行分箱。
在這裏插入圖片描述

1.3 卡方分箱法(ChiMerge)

待更新。。。。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章