Pandas(DataFrame)

DataFrame
DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
行索引：index
列索引：columns
值：values（numpy的二维数组）
1）DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。
此外，DataFrame会自动加上每一行的索引（和Series一样）。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

data={'color':['blue','green','yellow','red','white'],
'object':['ball','pen','pencil','paper','mug'],
'price':[1.2,1.0,0.6,0.9,1.7]}
frame=DataFrame(data,columns=['color','object','price','weight'],
index=['one','two','three','four','five'])
frame

frame.values

frame.columns

frame.index

frame.shape

练习4：
根据以下考试成绩表，创建一个DataFrame，命名为ddd：
张三李四
语文 150 0
数学 150 0
英语 150 0
理综 300 0

dic={'张三':[1500,150,150,300],'李四':[0,0,0,0]}
ddd=DataFrame(dic,index=['语文','数学','英语','理综'])
ddd

2）DataFrame的索引
(1) 对列进行索引
- 通过类似字典的方式
- 通过属性的方式
可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

ddd['张三']#ddd.张三

语文 1500
数学 150
英语 150
理综 300
Name: 张三, dtype: int64

(2) 对行进行索引
- 使用.ix[]来进行行索引
- 使用.loc[]加index来进行行索引
- 使用.iloc[]加整数来进行行索引
同样返回一个Series，index为原来的columns

ddd.iloc[1]#ddd.loc['数学']#ddd.ix['数学']

张三 150
李四 0
Name: 数学, dtype: int64

(3) 对元素索引的方法
- 先使用列索引
- 先使用行索引
- 使用values属性（二维numpy数组）

print("使用列索引")
print(ddd.张三['语文']) #先列再行
print(ddd.ix['语文']['张三'])#先行再列
print(ddd.iloc[0][0]) #使用隐式索引

【注意】直接用中括号时：
索引表示的是列索引
切片表示的是行切片

3）DataFrame的运算
（1） DataFrame之间的运算
同Series一样：
在运算中自动对齐不同索引的数据
如果索引不对应，则补NaN

A=DataFrame(np.random.randint(0,10,(3,3)),columns=list('abc'))
B=DataFrame(np.random.randint(0,10,(2,2)),columns=list('ab'))
A.add(B,fill_value=0)

（2） Series与DataFrame之间的运算
【重要】
使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。（类似于numpy中二维数组与一维数组的运算，但可能出现NaN）
使用pandas操作函数：
axis=0：以列为单位操作（参数必须是列），对所有列都有效。
axis=1：以行为单位操作（参数必须是行），对所有列都有效。

C.sub(C['a'],axis=0)

a b c
0 0.0 0.0 -16.0
1 0.0 1.0 -4.0
2 0.0 4.0 -1.0

============================================
练习6：
1:假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。
2:假设张三期中考试数学被发现作弊，要记为0分，如何实现？
3:李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？
4:后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？

1:data2 = {'张三':[110,140,130,289],
'李四':[80,90,60,180]}
ddd = pd.DataFrame(data2,index=['语文','数学','英语','理综'])
ddd

data3 = {"张三":[120,130,140,299],
'李四':[60,70,80,150]}
ddd2 = pd.DataFrame(data3,index=['语文','数学','英语','理综'])
ddd2

ddd1 = ddd.add(ddd2)
ddd1
ddd1.div(2)

2:print('张三期中考试作弊，成绩为0')
ddd['张三']['数学']=0
ddd

3:print('李四检举有功，加100')
ddd['李四'] += 100
ddd

4:print('老师出错题目，每位同学加10分')
ddd2+=10
ddd2

Alicia_N

发布了39 篇原创文章 · 获赞 16 · 访问量 7万+

私信关注

Spring Cloud 部署时如何使用 Kubernetes 作为注册中心和配置中心

Pandas(Serises)

數據處理（三）高級部分數據聚合

Mysql5.7下的三種循環

利用Python輕鬆實現圖片相似度對比（一）

利用Python輕鬆實現圖片相似度對比（二）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結