Python之pandas库01 read_csv

import pandas as pd  # 将pandas作为第三方库导入,我们一般为pandas取一个别名叫做pd

pd.set_option('expand_frame_repr', False)  # 当列太多时不换行

导入数据


df = pd.read_csv(
    # 该参数为数据在电脑中的路径
    filepath_or_buffer='test.csv',
    # 该参数代表数据的分隔符,csv文件默认是逗号。其他常见的是'\t'
    sep=',',
    # 该参数代表跳过数据文件的的第1行不读入
    skiprows=1,
    # nrows,只读取前n行数据,若不指定,读入全部的数据
    nrows=15,
    # 将指定列的数据识别为日期格式。若不指定,时间数据将会以字符串形式读入。一开始先不用。
    parse_dates=['begin_time'],
    # 将指定列设置为index。若不指定,index默认为0, 1, 2, 3, 4...
    index_col=['begin_time'],
    # 读取指定的这几列数据,其他数据不读取。若不指定,读入全部列
    # usecols=['begin_time', 'close'],
    # 当某行数据有问题时,报错。设定为False时即不报错,直接跳过该行。当数据比较脏乱的时候用这个。
    # error_bad_lines=False,
    # 将数据中的null识别为空值
    # na_values='NULL',
)

导入的数据的数据类型是DataFrame。
导入数据主要使用read系列函数
还有read_table、read_excel、read_json等,他们的参数内容都是大同小异,可以自行搜索查看。

查看数据

print(df.shape)  # 输出dataframe有多少行、多少列。
print(df.shape[0])  # 取行数量,相应的列数量就是df.shape[1]
print(df.columns)  # 顺序输出每一列的名字,演示如何for语句遍历。
print(df.index)  # 顺序输出每一行的名字,可以for语句遍历。
print(df.dtypes)  # 数据每一列的类型不一样,比如数字、字符串、日期等。该方法输出每一列变量类型
print(df.head(3))  # 看前3行的数据,默认是5。与自然语言很接近
print(df.tail(3))  # 看最后3行的数据,默认是5。
print(df.sample(n=3))  # 随机抽取3行,想要去固定比例的话,可以用frac参数
print(df.describe())  # 非常方便的函数,对每一列数据有直观感受;只会对数字类型的列有效
# 对print出的数据格式进行修正
pd.set_option('expand_frame_repr', False)  # 当列太多时不换行
pd.set_option('max_colwidth', 1)  # 设定每一列的最大宽度,恢复原设置的方法,pd.reset_option('max_colwidth')
pd.set_option("display.max_rows", 100)  # 设定显示最大的行数
pd.set_option('precision', 6)  # 浮点数的精度
print(df.head())

更多设置请见http://pandas.pydata.org/pandas-docs/stable/options.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章