程序源代碼參見GitHub:https://github.com/leungBH/BankMarketing
-
數據集基本情況
目標:
根據相關的信息預測通過電話推銷,用戶是否會在銀行進行存款。
特徵:總共有50個特徵。
年齡,工作類型,婚姻狀況,受教育背景,信用情況,房貸,個人貸款,聯繫電話是手機還是固定電話,最後聯繫月份,最後聯繫日,通話持續時間,本次活動中聯繫的次數,最後一次接觸距離上一次接觸的時間,以前的活動中聯繫的次數,上一次活動成功與否,就業變化率,消費者物價指數,歐元銀行同業拆借利率,就業人數。
通過對數據集進行初步的分析,發現其中有缺失值的特徵有6個:
由於缺失值比較少,下面嘗試三種常用的缺失值填補方法:
- 使用平均值填補;
- 使用kNN擬合缺失值;
- 使用隨機森林擬合缺失值。
-
使用平均值取代缺失值
-
使用隨機森林預測缺失值
- 把分類特徵轉化爲數值特徵。
- 統計有缺失值的特徵,按照缺失值數量從少到多排列。
- 從缺失值少的特徵開始,用隨機森林對缺失值進行填補。
-
使用KNN擬合
參考文獻:
S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014
S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimaraes, Portugal, October, 2011. EUROSIS. [bank.zip]