Python學習(筆記4-數據清洗)

數據清洗相關代碼例子已上傳****

1.Pandas:一個強大的分析結構化數據的工具集

  • 基礎是NumPy ,提供了高性能矩陣的運算
  • 應用:數據挖掘、數據分析 如:學生成績分析、股票數據分析等。
  • 提供數據清洗功能

2.Pandas的數據結構
Series

  • 類似一維數組的對象
  • 通過list構建Series:ser_ obj = pd.Series(range(10))
  • 由數據和索引組成:索引在左,數據在右;索引是自動創建的
  • 獲取數據和索引:ser _obj.index, ser_ obj.values
  • 預覽數據:ser obj.head(n)

DataFrame

  • 類似多維數組/表格數據(如 excel, R中的data.frame)
  • 每列數據可以是不同的類型, what about ndarray?
  • 索引包括列索和行索引

3.Pandas的數據操作
DataFrame索引

  • 列索引:df_ obj[ 'label' ]
  • 不連續索引:df obj[[ 'label1' ,'label2' ]]

排序

  • sort index ,索引|排序:對DataFrame操作時注意軸方向
  • 按值排序:sort values(by= 'label' )

4.Pandas統計計算和描述
常用的統計計算

  • sum, mean, max, min...
  • axis=0按列統計, axis= 1按行統計
  • skipna排除缺失值,默認爲True
  • idmax, idmin, cumsum

統計描述

  • describe產生多個統計數據

5.Pandas數據清洗

  • 處理缺失數據:dropna() 丟棄缺失數據;fillna()填充缺失數據
  • 數據過濾:df[filter_ condition] 依據filter condition對數據進行過濾

6. Pandas數據可視化

  •  Pandas提供 了內建的繪圖功能(基於matplotlib )
  • plot(kind, x, y, title, figsize):x, y橫縱座標對應的數據列;title圖像名稱;figsize圖像尺寸
  • 保存圖片: plt.savefig()
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章