數據清洗的定義:
對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性;
數據清洗的難點:
數據清洗一般針對具體應用,因而難以歸納統一的方法和步驟,但是根據數據不同可以給出相應的數據清理方法;
數據清洗方法
- 解決缺失值方法:使用平均值、最大值、最小值或更爲複雜的概率估計代替缺失的值;
- 去重:相等的記錄合併爲一條記錄(即合併/清除);
- 解決錯誤值:用統計分析的方法識別可能的錯誤值或異常值,如偏差分析、識別不遵守分佈或迴歸方程的值,也可以用簡單規則庫(常識性規則、業務特定規則等)檢查數據值,或使用不同屬性間的約束、外部的數據來檢測和清理數據;
- 解決數據的不一致性:比如數據是類別型或者次序型;
數據清洗的八大場景
- 刪除多列;
- 更改數據類型;將文本數據或者類別數據轉換爲數值信息;
- 將分類變量轉換爲數字變量;
- 檢查缺失數據(空值爲NAN);
- 刪除列中的字符串(比如把姓名刪除,姓名和是否富有沒有關係,可以把姓名刪除);
- 刪除列中的空格(空格NA);
- 用字符串連接兩列(帶條件);
- 轉換時間戳(從字符串到日期時間格式)
何爲數據處理?
數據處理是對數據(包括數值和非數值的)進行分析和加工的技術過程;
總結起來就是一句話:
讓數據更好的能夠擬合我們的模型,更便於計算,減少計算量,但是具體問題要具體分析;
數據處理方法
- 對數變換;
- 標準縮放;
- 轉換數據類型;
- 獨熱編碼;
- 標籤編碼;