Pandas两种主要的数据结构

OUTLINE

  • Series
  • pandas

pandas中的数据结构主要包括两种,一种是Series,一种是dataframe。

Series

Series表示一维数据,可以简单理解为一个向量,但是不同于向量的是,Series会自动为这一维数据创建行索引。

① 创建Series

import pandas as pd
series_obj = pd.Series(['a','b','c'])

② Series本身的属性有两种,一种是index,一种是values

series_obj.index # 查看series的index
series_obj.values # 查看series的values

③ 查看Series的前几行

series_obj.head(1) # 可以将1替换成想查看的任何行数

dataframe

dataframe是一种表格型的数据结构,既有行索引index,也有列索引columns。其实可以简单把dataframe理解为一张数据表。

① 创建dataframe

通过字典方式创建, key相当于列索引中的每一列的“列名”

data_dict = {'a':[1,2,3],'b':[2,3,4]}
print(data_dict)

通过无索引的数据矩阵,添加columns

a = [[1,2,3],[2,3,4]]
data = pd.DataFrame(a,columns=('a','b','c'))

② 同样地,对于pandas来说,有三种属性可以调用,一是index,二是columns,三是values
③ dataframe的索引问题

按照字段名称选列

data['a']  # 找出一列
data[['a','b']]  # 找出两列或多列数据

按照字段位置选列和行

data.loc[0,:]  # 找出某一行的数据
data.loc[[0,1],:]  # 找出一二行的数据

找出dataframe的前/后多少行

data.head(2)  # 前两行
data.tail(2)  # 后两行

④ dataframe的排序问题

data2 = data.sort_index(ascending=False)
data3 = data.sort_values(by='b',ascending=True)

⑤ dataframe的数据添加与删除

data['d'] = [4,2]
del data['d']

⑥ dataframe用于数据探索

data.info()
data.describe()
发布了37 篇原创文章 · 获赞 61 · 访问量 16万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章