Because the people who are crazy enough to think that they can change the world, are the ones who do.
Python 數據清洗實戰
概述
- 數據清洗實質上是指將實際業務問題中,髒數據清洗乾淨,轉換爲 ‘乾淨的數據’,所謂的髒,指數據可能存在以下幾種問題(主要問題):
- 數據缺失 (Incomplete): 是屬性值爲空的情況。 如 Occupan = " "
- 數據噪聲 (Noisy): 是數據值不合常理的情況。 如 Salary = “-100”
- 數據不一致 (Inconsistent): 是數據前後存在矛盾的情況。 如 Age = “042” 或者 Birthday = “01/09/1985”
- 數據冗餘 (Redundant): 是數據量或者屬性數目超出數據分析需要的情況
- 離羣點/異常值 (Outliers): 是偏離大部分值的數據
- 數據重複: 是在數據集中出現多次的數據
數據清洗之常用工具
數據清洗之文件讀寫
數據清洗之數據表處理
數據清洗之數據轉換
數據清洗之數據統計
數據清洗之數據預處理
總結
數據清洗步驟
- 數據獲取,使用read_csv或者read_excel
- 數據探索,使用shape,describe或者info函數
- 行列操作,使用loc或者iloc函數
- 數據整合,對不同數據源進行整理
- 數據類型轉換,對不同字段數據類型進行轉換
- 分組彙總,對數據進行各個維度的計算
- 處理重複值、缺失值和異常值以及數據離散化
函數大全
- merge,concat函數常常用於數據整合
- pd.to_datatime常常用於日期格式轉換
- str函數用於字符串操作
- 函數astype用於數據類型轉換
- 函數apply和map用於更加高級的函數處理
- Groupby用於創建分組對象
- 透視圖函數pd.pivot_table和交叉表pd.crosstab
- 分組對象和agg結合使用,統計需要的信息
Python 數據清洗數據
鏈接:https://pan.baidu.com/s/1RKa0QOxPbckBTkqsqpimgg
提取碼:md20