pandas是數據清洗常用包,知識點包括數據的創建、數據的操作、數據的計算、數據的索引。
腦圖如下。
一、數據創建:Series,DataFrame
1.Series創建的兩種方式 :一維數組 或者 字典
2.Series運算
3.dataframe創建的兩種方式:數組 或者 字典
二、數據的常用操作
1.讀取文件pd.read_csv('文件路徑',sep='\t')一般讀取txt文件
2.讀完了之後獲取某列df[列名],某行數據df.ix(行名)
3.數據太多了只看某些符合條件數據,過濾獲取數據
4.數據的重命名rename(),替換replace(),排序sort()
4.數據的選取,刪除、添加
5.數據的單層索引:
- loc.基於label名字索引。df.loc[:5]輸出前5行,包括第5行(df.head(5)就是不包括第5行的)。df.loc[:5,['player','height']]前面是行索引,後面是列,用逗號分隔,行列名稱必須都是表中有的字段才能索引到。
- iloc.基於位置索引。df.iloc[[1,3,5]]輸出第1,3,5行。df.iloc[:5,[1,3,5]]輸出前5行,第1,3,5列。是這個位置的就行。
6.數據的過濾
df.loc[df['height']>180,'flag']='high',把身高大於180的數據判斷爲高,並輸出到一個名爲 flag的新列裏面。
數據的索引http://www.zhimengzhe.com/shujuku/other/267646.html
7.多重索引(層次化索引)
三、數據的清洗
1.缺失值處理方法
2.缺失值填充fillna()
3.缺失值的丟棄
四、對數據常用的數學統計方法
1.跟excel操作差不多的統計函數
2.查看數據的統計特徵df.describe()#包括平均數、方差、百分位數。
3,求相關係數df.corr(),協方差df.cov()
4.分組計算