import pandas as pd # 将pandas作为第三方库导入,我们一般为pandas取一个别名叫做pd
pd.set_option('expand_frame_repr', False) # 当列太多时不换行
导入数据
df = pd.read_csv(
# 该参数为数据在电脑中的路径
filepath_or_buffer='test.csv',
# 该参数代表数据的分隔符,csv文件默认是逗号。其他常见的是'\t'
sep=',',
# 该参数代表跳过数据文件的的第1行不读入
skiprows=1,
# nrows,只读取前n行数据,若不指定,读入全部的数据
nrows=15,
# 将指定列的数据识别为日期格式。若不指定,时间数据将会以字符串形式读入。一开始先不用。
parse_dates=['begin_time'],
# 将指定列设置为index。若不指定,index默认为0, 1, 2, 3, 4...
index_col=['begin_time'],
# 读取指定的这几列数据,其他数据不读取。若不指定,读入全部列
# usecols=['begin_time', 'close'],
# 当某行数据有问题时,报错。设定为False时即不报错,直接跳过该行。当数据比较脏乱的时候用这个。
# error_bad_lines=False,
# 将数据中的null识别为空值
# na_values='NULL',
)
导入的数据的数据类型是DataFrame。
导入数据主要使用read系列函数
还有read_table、read_excel、read_json等,他们的参数内容都是大同小异,可以自行搜索查看。
查看数据
print(df.shape) # 输出dataframe有多少行、多少列。
print(df.shape[0]) # 取行数量,相应的列数量就是df.shape[1]
print(df.columns) # 顺序输出每一列的名字,演示如何for语句遍历。
print(df.index) # 顺序输出每一行的名字,可以for语句遍历。
print(df.dtypes) # 数据每一列的类型不一样,比如数字、字符串、日期等。该方法输出每一列变量类型
print(df.head(3)) # 看前3行的数据,默认是5。与自然语言很接近
print(df.tail(3)) # 看最后3行的数据,默认是5。
print(df.sample(n=3)) # 随机抽取3行,想要去固定比例的话,可以用frac参数
print(df.describe()) # 非常方便的函数,对每一列数据有直观感受;只会对数字类型的列有效
# 对print出的数据格式进行修正
pd.set_option('expand_frame_repr', False) # 当列太多时不换行
pd.set_option('max_colwidth', 1) # 设定每一列的最大宽度,恢复原设置的方法,pd.reset_option('max_colwidth')
pd.set_option("display.max_rows", 100) # 设定显示最大的行数
pd.set_option('precision', 6) # 浮点数的精度
print(df.head())
更多设置请见http://pandas.pydata.org/pandas-docs/stable/options.html