數據清洗相關代碼例子已上傳****
1.Pandas:一個強大的分析結構化數據的工具集
- 基礎是NumPy ,提供了高性能矩陣的運算
- 應用:數據挖掘、數據分析 如:學生成績分析、股票數據分析等。
- 提供數據清洗功能
2.Pandas的數據結構
Series
- 類似一維數組的對象
- 通過list構建Series:ser_ obj = pd.Series(range(10))
- 由數據和索引組成:索引在左,數據在右;索引是自動創建的
- 獲取數據和索引:ser _obj.index, ser_ obj.values
- 預覽數據:ser obj.head(n)
DataFrame
- 類似多維數組/表格數據(如 excel, R中的data.frame)
- 每列數據可以是不同的類型, what about ndarray?
- 索引包括列索和行索引
3.Pandas的數據操作
DataFrame索引
- 列索引:df_ obj[ 'label' ]
- 不連續索引:df obj[[ 'label1' ,'label2' ]]
排序
- sort index ,索引|排序:對DataFrame操作時注意軸方向
- 按值排序:sort values(by= 'label' )
4.Pandas統計計算和描述
常用的統計計算
- sum, mean, max, min...
- axis=0按列統計, axis= 1按行統計
- skipna排除缺失值,默認爲True
- idmax, idmin, cumsum
統計描述
- describe產生多個統計數據
5.Pandas數據清洗
- 處理缺失數據:dropna() 丟棄缺失數據;fillna()填充缺失數據
- 數據過濾:df[filter_ condition] 依據filter condition對數據進行過濾
6. Pandas數據可視化
- Pandas提供 了內建的繪圖功能(基於matplotlib )
- plot(kind, x, y, title, figsize):x, y橫縱座標對應的數據列;title圖像名稱;figsize圖像尺寸
- 保存圖片: plt.savefig()