kaggle比賽數據清洗方法

數據清洗的定義:

對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性;

數據清洗的難點:

數據清洗一般針對具體應用,因而難以歸納統一的方法和步驟,但是根據數據不同可以給出相應的數據清理方法;

數據清洗方法

  1. 解決缺失值方法:使用平均值、最大值、最小值或更爲複雜的概率估計代替缺失的值;
  2. 去重:相等的記錄合併爲一條記錄(即合併/清除);
  3. 解決錯誤值:用統計分析的方法識別可能的錯誤值或異常值,如偏差分析、識別不遵守分佈或迴歸方程的值,也可以用簡單規則庫(常識性規則、業務特定規則等)檢查數據值,或使用不同屬性間的約束、外部的數據來檢測和清理數據;
  4. 解決數據的不一致性:比如數據是類別型或者次序型;

數據清洗的八大場景

  1. 刪除多列;
  2. 更改數據類型;將文本數據或者類別數據轉換爲數值信息;
  3. 將分類變量轉換爲數字變量;
  4. 檢查缺失數據(空值爲NAN);
  5. 刪除列中的字符串(比如把姓名刪除,姓名和是否富有沒有關係,可以把姓名刪除);
  6. 刪除列中的空格(空格NA);
  7. 用字符串連接兩列(帶條件);
  8. 轉換時間戳(從字符串到日期時間格式)

何爲數據處理?

數據處理是對數據(包括數值和非數值的)進行分析和加工的技術過程;

總結起來就是一句話
讓數據更好的能夠擬合我們的模型,更便於計算,減少計算量,但是具體問題要具體分析;

數據處理方法

  1. 對數變換;
  2. 標準縮放;
  3. 轉換數據類型;
  4. 獨熱編碼;
  5. 標籤編碼;
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章