OUTLINE
- Series
- pandas
pandas中的数据结构主要包括两种,一种是Series,一种是dataframe。
Series
Series表示一维数据,可以简单理解为一个向量,但是不同于向量的是,Series会自动为这一维数据创建行索引。
① 创建Series
import pandas as pd
series_obj = pd.Series(['a','b','c'])
② Series本身的属性有两种,一种是index,一种是values
series_obj.index # 查看series的index
series_obj.values # 查看series的values
③ 查看Series的前几行
series_obj.head(1) # 可以将1替换成想查看的任何行数
dataframe
dataframe是一种表格型的数据结构,既有行索引index,也有列索引columns。其实可以简单把dataframe理解为一张数据表。
① 创建dataframe
通过字典方式创建, key相当于列索引中的每一列的“列名”
data_dict = {'a':[1,2,3],'b':[2,3,4]}
print(data_dict)
通过无索引的数据矩阵,添加columns
a = [[1,2,3],[2,3,4]]
data = pd.DataFrame(a,columns=('a','b','c'))
② 同样地,对于pandas来说,有三种属性可以调用,一是index,二是columns,三是values
③ dataframe的索引问题
按照字段名称选列
data['a'] # 找出一列
data[['a','b']] # 找出两列或多列数据
按照字段位置选列和行
data.loc[0,:] # 找出某一行的数据
data.loc[[0,1],:] # 找出一二行的数据
找出dataframe的前/后多少行
data.head(2) # 前两行
data.tail(2) # 后两行
④ dataframe的排序问题
data2 = data.sort_index(ascending=False)
data3 = data.sort_values(by='b',ascending=True)
⑤ dataframe的数据添加与删除
data['d'] = [4,2]
del data['d']
⑥ dataframe用于数据探索
data.info()
data.describe()