Python之pandas库01 read_csv

原創

2020-06-27 09:56

import pandas as pd  # 将pandas作为第三方库导入，我们一般为pandas取一个别名叫做pd

pd.set_option('expand_frame_repr', False)  # 当列太多时不换行

导入数据


df = pd.read_csv(
    # 该参数为数据在电脑中的路径
    filepath_or_buffer='test.csv',
    # 该参数代表数据的分隔符，csv文件默认是逗号。其他常见的是'\t'
    sep=',',
    # 该参数代表跳过数据文件的的第1行不读入
    skiprows=1,
    # nrows，只读取前n行数据，若不指定，读入全部的数据
    nrows=15,
    # 将指定列的数据识别为日期格式。若不指定，时间数据将会以字符串形式读入。一开始先不用。
    parse_dates=['begin_time'],
    # 将指定列设置为index。若不指定，index默认为0, 1, 2, 3, 4...
    index_col=['begin_time'],
    # 读取指定的这几列数据，其他数据不读取。若不指定，读入全部列
    # usecols=['begin_time', 'close'],
    # 当某行数据有问题时，报错。设定为False时即不报错，直接跳过该行。当数据比较脏乱的时候用这个。
    # error_bad_lines=False,
    # 将数据中的null识别为空值
    # na_values='NULL',
)

导入的数据的数据类型是DataFrame。
导入数据主要使用read系列函数
还有read_table、read_excel、read_json等，他们的参数内容都是大同小异，可以自行搜索查看。

查看数据

print(df.shape)  # 输出dataframe有多少行、多少列。
print(df.shape[0])  # 取行数量，相应的列数量就是df.shape[1]
print(df.columns)  # 顺序输出每一列的名字，演示如何for语句遍历。
print(df.index)  # 顺序输出每一行的名字，可以for语句遍历。
print(df.dtypes)  # 数据每一列的类型不一样，比如数字、字符串、日期等。该方法输出每一列变量类型
print(df.head(3))  # 看前3行的数据，默认是5。与自然语言很接近
print(df.tail(3))  # 看最后3行的数据，默认是5。
print(df.sample(n=3))  # 随机抽取3行，想要去固定比例的话，可以用frac参数
print(df.describe())  # 非常方便的函数，对每一列数据有直观感受；只会对数字类型的列有效
# 对print出的数据格式进行修正
pd.set_option('expand_frame_repr', False)  # 当列太多时不换行
pd.set_option('max_colwidth', 1)  # 设定每一列的最大宽度，恢复原设置的方法，pd.reset_option('max_colwidth')
pd.set_option("display.max_rows", 100)  # 设定显示最大的行数
pd.set_option('precision', 6)  # 浮点数的精度
print(df.head())

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python之pandas库01 read_csv

Python之pandas庫01 read_csv

Python安裝ta-lib

MySQL查詢性能優化—優化LIMIT分頁

Elasticsearch6實現類似like方法

elasticsearch安裝問題及解決方案

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結