UCI銀行營銷數據集--缺失值處理方法

程序源代碼參見GitHub:https://github.com/leungBH/BankMarketing

  • 數據集基本情況

目標:

根據相關的信息預測通過電話推銷,用戶是否會在銀行進行存款。

特徵:總共有50個特徵。

年齡,工作類型,婚姻狀況,受教育背景,信用情況,房貸,個人貸款,聯繫電話是手機還是固定電話,最後聯繫月份,最後聯繫日,通話持續時間,本次活動中聯繫的次數,最後一次接觸距離上一次接觸的時間,以前的活動中聯繫的次數,上一次活動成功與否,就業變化率,消費者物價指數,歐元銀行同業拆借利率,就業人數。

通過對數據集進行初步的分析,發現其中有缺失值的特徵有6個:

由於缺失值比較少,下面嘗試三種常用的缺失值填補方法:

  1. 使用平均值填補;
  2. 使用kNN擬合缺失值;
  3. 使用隨機森林擬合缺失值。
  • 使用平均值取代缺失值

  • 使用隨機森林預測缺失值

  1. 把分類特徵轉化爲數值特徵。
  2. 統計有缺失值的特徵,按照缺失值數量從少到多排列。
  3. 從缺失值少的特徵開始,用隨機森林對缺失值進行填補。
  • 使用KNN擬合

 

參考文獻:

S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014

S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimaraes, Portugal, October, 2011. EUROSIS. [bank.zip]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章