1. 數據分箱
1.1 等區間分箱
將連續變量的值進行獲取,然後利用pandas的cut函數進行等區間分箱。
如下代碼,獲取值A2_values ,並等數值區間分爲6類爲[0,1,2,3,4,5];
(cut在操作時,統計了一維數組的最小、最大值,得到一個區間長度,因爲需要劃分6個區間)
1.2 等頻分箱
將連續變量在[min,max]區間內,等數量地進行分箱。
1.3 卡方分箱法(ChiMerge)
待更新。。。。。。
將連續變量的值進行獲取,然後利用pandas的cut函數進行等區間分箱。
如下代碼,獲取值A2_values ,並等數值區間分爲6類爲[0,1,2,3,4,5];
(cut在操作時,統計了一維數組的最小、最大值,得到一個區間長度,因爲需要劃分6個區間)
將連續變量在[min,max]區間內,等數量地進行分箱。
待更新。。。。。。
特徵增強是對數據的進一步修改,我們開始清洗和增強數據。主要涉及的操作有 識別數據中的缺失值 刪除有害數據 輸入缺失值 對數據進行歸一化/標準化 1. 識別數據中的缺失值 特徵增強的第一種方法是識
數據挖掘——爲什麼使用啞變量?啞變量有哪些作用?哪些情況應該使用啞變量? 直接給鏈接: https://www.cnblogs.com/sddai/p/8834373.html