python系列(2)---pandas庫基礎知識

pandas是數據清洗常用包,知識點包括數據的創建、數據的操作、數據的計算、數據的索引。

腦圖如下。

一、數據創建:Series,DataFrame

1.Series創建的兩種方式 :一維數組    或者  字典

 

2.Series運算

 

3.dataframe創建的兩種方式:數組    或者  字典

二、數據的常用操作

1.讀取文件pd.read_csv('文件路徑',sep='\t')一般讀取txt文件

2.讀完了之後獲取某列df[列名],某行數據df.ix(行名)

3.數據太多了只看某些符合條件數據,過濾獲取數據

4.數據的重命名rename(),替換replace(),排序sort()

 

4.數據的選取,刪除、添加

 

 

5.數據的單層索引:

  • loc.基於label名字索引。df.loc[:5]輸出前5行,包括第5行(df.head(5)就是不包括第5行的)。df.loc[:5,['player','height']]前面是行索引,後面是列,用逗號分隔,行列名稱必須都是表中有的字段才能索引到。
  • iloc.基於位置索引。df.iloc[[1,3,5]]輸出第1,3,5行。df.iloc[:5,[1,3,5]]輸出前5行,第1,3,5列。是這個位置的就行。

6.數據的過濾

df.loc[df['height']>180,'flag']='high',把身高大於180的數據判斷爲高,並輸出到一個名爲 flag的新列裏面。

數據的索引http://www.zhimengzhe.com/shujuku/other/267646.html

7.多重索引(層次化索引)

 

三、數據的清洗

 

1.缺失值處理方法

2.缺失值填充fillna()

3.缺失值的丟棄

 

四、對數據常用的數學統計方法

1.跟excel操作差不多的統計函數

 

 

2.查看數據的統計特徵df.describe()#包括平均數、方差、百分位數。

 

 

3,求相關係數df.corr(),協方差df.cov()

 

4.分組計算

 

 

參考文章:http://www.cnblogs.com/stream886/p/6021743.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章