數據清洗步驟
- 數據獲取,使用read_csv或者read_excel
- 數據探索,使用shape,describe或者info函數
- 行列操作,使用loc或者iloc函數
- 數據整合,對不同數據源進行整理
- 數據類型轉換,對不同字段數據類型進行轉換
- 分組彙總,對數據進行各個維度的計算
- 處理重複值、缺失值和異常值以及數據離散化
函數大全
- merge,concat函數常常用於數據整合
- pd.to_datetime常常用於日期格式轉換
- str函數用於字符串操作
- 函數astype用於數據類型轉換
- 函數apply和map用於更加高級的數據處理
- Groupby用於創建分組對象
- 透視表函數pd.pivot_table和交叉表pd.crosstab
- 分組對象和agg結合使用,統計需要的信息
數據清洗的內容
數據清洗總結
數據清洗實質上是將實際業務問題中,髒數據清洗乾淨,轉換爲’乾淨的數據’, 所謂的髒
,指數據可能存在以下幾種問題(主要問題):
- 數據缺失 (Incomplete) 是屬性值爲空的情況。如 Occupancy = “ ”
- 數據噪聲 (Noisy)是數據值不合常理的情況。如 Salary = “-100”
- 數據不一致 (Inconsistent)是數據前後存在矛盾的情況。如 Age = “042” 或者
Birthday = “01/09/1985” - 數據冗餘 (Redundant)是數據量或者屬性數目超出數據分析需要的情況
- 離羣點/異常值 (Outliers)是偏離大部分值的數據
- 數據重複是在數據集中出現多次的數據