Python 數據清理實戰

Because the people who are crazy enough to think that they can change the world, are the ones who do.

Python 數據清洗實戰

\color{red}用到的數據我放在了文末

概述


  • 數據清洗實質上是指將實際業務問題中,髒數據清洗乾淨,轉換爲 ‘乾淨的數據’,所謂的髒,指數據可能存在以下幾種問題(主要問題):
    • 數據缺失 (Incomplete): 是屬性值爲空的情況。 如 Occupan = " "
    • 數據噪聲 (Noisy): 是數據值不合常理的情況。 如 Salary = “-100”
    • 數據不一致 (Inconsistent): 是數據前後存在矛盾的情況。 如 Age = “042” 或者 Birthday = “01/09/1985”
    • 數據冗餘 (Redundant): 是數據量或者屬性數目超出數據分析需要的情況
    • 離羣點/異常值 (Outliers): 是偏離大部分值的數據
    • 數據重複: 是在數據集中出現多次的數據

數據清洗之常用工具

數據清洗之文件讀寫

數據清洗之數據表處理

數據清洗之數據轉換

數據清洗之數據統計

數據清洗之數據預處理

總結

數據清洗步驟


  1. 數據獲取,使用read_csv或者read_excel
  2. 數據探索,使用shape,describe或者info函數
  3. 行列操作,使用loc或者iloc函數
  4. 數據整合,對不同數據源進行整理
  5. 數據類型轉換,對不同字段數據類型進行轉換
  6. 分組彙總,對數據進行各個維度的計算
  7. 處理重複值、缺失值和異常值以及數據離散化

函數大全


  • merge,concat函數常常用於數據整合
  • pd.to_datatime常常用於日期格式轉換
  • str函數用於字符串操作
  • 函數astype用於數據類型轉換
  • 函數apply和map用於更加高級的函數處理
  • Groupby用於創建分組對象
  • 透視圖函數pd.pivot_table和交叉表pd.crosstab
  • 分組對象和agg結合使用,統計需要的信息

Python 數據清洗數據
鏈接:https://pan.baidu.com/s/1RKa0QOxPbckBTkqsqpimgg
提取碼:md20

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章