python數據清洗實戰入門筆記(七)總結

數據清洗步驟

  1. 數據獲取,使用read_csv或者read_excel
  2. 數據探索,使用shape,describe或者info函數
  3. 行列操作,使用loc或者iloc函數
  4. 數據整合,對不同數據源進行整理
  5. 數據類型轉換,對不同字段數據類型進行轉換
  6. 分組彙總,對數據進行各個維度的計算
  7. 處理重複值、缺失值和異常值以及數據離散化

函數大全

  1. merge,concat函數常常用於數據整合
  2. pd.to_datetime常常用於日期格式轉換
  3. str函數用於字符串操作
  4. 函數astype用於數據類型轉換
  5. 函數apply和map用於更加高級的數據處理
  6. Groupby用於創建分組對象
  7. 透視表函數pd.pivot_table和交叉表pd.crosstab
  8. 分組對象和agg結合使用,統計需要的信息

數據清洗的內容

image-20200518074720606

數據清洗總結

數據清洗實質上是將實際業務問題中,髒數據清洗乾淨,轉換爲’乾淨的數據’, 所謂的髒
,指數據可能存在以下幾種問題(主要問題):

  1. 數據缺失 (Incomplete) 是屬性值爲空的情況。如 Occupancy = “ ”
  2. 數據噪聲 (Noisy)是數據值不合常理的情況。如 Salary = “-100”
  3. 數據不一致 (Inconsistent)是數據前後存在矛盾的情況。如 Age = “042” 或者
    Birthday = “01/09/1985”
  4. 數據冗餘 (Redundant)是數據量或者屬性數目超出數據分析需要的情況
  5. 離羣點/異常值 (Outliers)是偏離大部分值的數據
  6. 數據重複是在數據集中出現多次的數據
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章