import pandas as pd # 將pandas作爲第三方庫導入,我們一般爲pandas取一個別名叫做pd
pd.set_option('expand_frame_repr', False) # 當列太多時不換行
導入數據
df = pd.read_csv(
# 該參數爲數據在電腦中的路徑
filepath_or_buffer='test.csv',
# 該參數代表數據的分隔符,csv文件默認是逗號。其他常見的是'\t'
sep=',',
# 該參數代表跳過數據文件的的第1行不讀入
skiprows=1,
# nrows,只讀取前n行數據,若不指定,讀入全部的數據
nrows=15,
# 將指定列的數據識別爲日期格式。若不指定,時間數據將會以字符串形式讀入。一開始先不用。
parse_dates=['begin_time'],
# 將指定列設置爲index。若不指定,index默認爲0, 1, 2, 3, 4...
index_col=['begin_time'],
# 讀取指定的這幾列數據,其他數據不讀取。若不指定,讀入全部列
# usecols=['begin_time', 'close'],
# 當某行數據有問題時,報錯。設定爲False時即不報錯,直接跳過該行。當數據比較髒亂的時候用這個。
# error_bad_lines=False,
# 將數據中的null識別爲空值
# na_values='NULL',
)
導入的數據的數據類型是DataFrame。
導入數據主要使用read系列函數
還有read_table、read_excel、read_json等,他們的參數內容都是大同小異,可以自行搜索查看。
查看數據
print(df.shape) # 輸出dataframe有多少行、多少列。
print(df.shape[0]) # 取行數量,相應的列數量就是df.shape[1]
print(df.columns) # 順序輸出每一列的名字,演示如何for語句遍歷。
print(df.index) # 順序輸出每一行的名字,可以for語句遍歷。
print(df.dtypes) # 數據每一列的類型不一樣,比如數字、字符串、日期等。該方法輸出每一列變量類型
print(df.head(3)) # 看前3行的數據,默認是5。與自然語言很接近
print(df.tail(3)) # 看最後3行的數據,默認是5。
print(df.sample(n=3)) # 隨機抽取3行,想要去固定比例的話,可以用frac參數
print(df.describe()) # 非常方便的函數,對每一列數據有直觀感受;只會對數字類型的列有效
# 對print出的數據格式進行修正
pd.set_option('expand_frame_repr', False) # 當列太多時不換行
pd.set_option('max_colwidth', 1) # 設定每一列的最大寬度,恢復原設置的方法,pd.reset_option('max_colwidth')
pd.set_option("display.max_rows", 100) # 設定顯示最大的行數
pd.set_option('precision', 6) # 浮點數的精度
print(df.head())
更多設置請見http://pandas.pydata.org/pandas-docs/stable/options.html