import pandas as pd
Python運用於數據分析的簡單教程: http://www.jb51.net/article/62982.htm
read_csv()
讀寫csv數據
df = pd.read_csv(path)
: 讀入csv文件,形成一個數據框(data.frame)
df = pd.read_csv(path, header=None)
不要把第一行作爲header
to_csv()
* 注意,默認會將第一行作爲header,並且默認會添加index,所以不需要的話需要手動禁用 *
df.to_csv(path, header=False, index=False)
數據框操作
df.head(1) 讀取頭幾條數據
df.tail(1) 讀取後幾條數據
df[‘date’] 獲取數據框的date列
df.head(1)[‘date’] 獲取第一行的date列
df.head(1)[‘date’][0] 獲取第一行的date列的元素值
sum(df[‘ability’]) 計算整個列的和
df[df[‘date’] == ‘20161111’] 獲取符合這個條件的行
df[df[‘date’] == ‘20161111’].index[0] 獲取符合這個條件的行的行索引的值
df.iloc[1] 獲取第二行
df.iloc[1][‘test2’] 獲取第二行的test2值
10 mins to pandas
df.index 獲取行的索引
df.index[0] 獲取第一個行索引
df.index[-1] 獲取最後一個行索引,只是獲取索引值
df.columns 獲取列標籤
df[0:2] 獲取第1到第2行,從0開始,不包含末端
df.loc[1] 獲取第二行
df.loc[:,’test1’] 獲取test1的那一列,這個冒號的意思是所有行,逗號表示行與列的區分
df.loc[:,[‘test1’,’test2’]] 獲取test1列和test2列的數據
df.loc[1,[‘test1’,’test2’]] 獲取第二行的test1和test2列的數據
df.at[1,’test1’] 表示取第二行,test1列的數據,和上面的方法類似
df.iloc[0] 獲取第一行
df.iloc[0:2,0:2] 獲取前兩行前兩列的數據
df.iloc[[1,2,4],[0,2]] 獲取第1,2,4行中的0,2列的數據
(df[2] > 1).any() 對於Series應用any()方法來判斷是否有符合條件的