Python之pandas庫01 read_csv

import pandas as pd  # 將pandas作爲第三方庫導入,我們一般爲pandas取一個別名叫做pd

pd.set_option('expand_frame_repr', False)  # 當列太多時不換行

導入數據


df = pd.read_csv(
    # 該參數爲數據在電腦中的路徑
    filepath_or_buffer='test.csv',
    # 該參數代表數據的分隔符,csv文件默認是逗號。其他常見的是'\t'
    sep=',',
    # 該參數代表跳過數據文件的的第1行不讀入
    skiprows=1,
    # nrows,只讀取前n行數據,若不指定,讀入全部的數據
    nrows=15,
    # 將指定列的數據識別爲日期格式。若不指定,時間數據將會以字符串形式讀入。一開始先不用。
    parse_dates=['begin_time'],
    # 將指定列設置爲index。若不指定,index默認爲0, 1, 2, 3, 4...
    index_col=['begin_time'],
    # 讀取指定的這幾列數據,其他數據不讀取。若不指定,讀入全部列
    # usecols=['begin_time', 'close'],
    # 當某行數據有問題時,報錯。設定爲False時即不報錯,直接跳過該行。當數據比較髒亂的時候用這個。
    # error_bad_lines=False,
    # 將數據中的null識別爲空值
    # na_values='NULL',
)

導入的數據的數據類型是DataFrame。
導入數據主要使用read系列函數
還有read_table、read_excel、read_json等,他們的參數內容都是大同小異,可以自行搜索查看。

查看數據

print(df.shape)  # 輸出dataframe有多少行、多少列。
print(df.shape[0])  # 取行數量,相應的列數量就是df.shape[1]
print(df.columns)  # 順序輸出每一列的名字,演示如何for語句遍歷。
print(df.index)  # 順序輸出每一行的名字,可以for語句遍歷。
print(df.dtypes)  # 數據每一列的類型不一樣,比如數字、字符串、日期等。該方法輸出每一列變量類型
print(df.head(3))  # 看前3行的數據,默認是5。與自然語言很接近
print(df.tail(3))  # 看最後3行的數據,默認是5。
print(df.sample(n=3))  # 隨機抽取3行,想要去固定比例的話,可以用frac參數
print(df.describe())  # 非常方便的函數,對每一列數據有直觀感受;只會對數字類型的列有效
# 對print出的數據格式進行修正
pd.set_option('expand_frame_repr', False)  # 當列太多時不換行
pd.set_option('max_colwidth', 1)  # 設定每一列的最大寬度,恢復原設置的方法,pd.reset_option('max_colwidth')
pd.set_option("display.max_rows", 100)  # 設定顯示最大的行數
pd.set_option('precision', 6)  # 浮點數的精度
print(df.head())

更多設置請見http://pandas.pydata.org/pandas-docs/stable/options.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章