Pandas(DataFrame)

DataFrame
DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。
行索引:index
列索引:columns
值:values(numpy的二维数组)
1)DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。
此外,DataFrame会自动加上每一行的索引(和Series一样)。

同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。

data={'color':['blue','green','yellow','red','white'],
     'object':['ball','pen','pencil','paper','mug'],
     'price':[1.2,1.0,0.6,0.9,1.7]}
frame=DataFrame(data,columns=['color','object','price','weight'],
               index=['one','two','three','four','five'])
frame

frame.values

frame.columns

frame.index

frame.shape

练习4:
根据以下考试成绩表,创建一个DataFrame,命名为ddd:
    张三  李四
语文 150  0
数学 150  0
英语 150  0
理综 300  0

dic={'张三':[1500,150,150,300],'李四':[0,0,0,0]}
ddd=DataFrame(dic,index=['语文','数学','英语','理综'])
ddd

2)DataFrame的索引
(1) 对列进行索引
- 通过类似字典的方式
- 通过属性的方式
可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。

ddd['张三']#ddd.张三

语文    1500
数学     150
英语     150
理综     300
Name: 张三, dtype: int64

(2) 对行进行索引
- 使用.ix[]来进行行索引
- 使用.loc[]加index来进行行索引
- 使用.iloc[]加整数来进行行索引
同样返回一个Series,index为原来的columns

ddd.iloc[1]#ddd.loc['数学']#ddd.ix['数学']

张三    150
李四      0
Name: 数学, dtype: int64

(3) 对元素索引的方法
- 先使用列索引
- 先使用行索引
- 使用values属性(二维numpy数组)

print("使用列索引")
print(ddd.张三['语文'])    #先列再行
print(ddd.ix['语文']['张三'])#先行再列
print(ddd.iloc[0][0])   #使用隐式索引

【注意】 直接用中括号时:
索引表示的是列索引
切片表示的是行切片

3)DataFrame的运算
(1) DataFrame之间的运算
同Series一样:
在运算中自动对齐不同索引的数据
如果索引不对应,则补NaN

A=DataFrame(np.random.randint(0,10,(3,3)),columns=list('abc'))
B=DataFrame(np.random.randint(0,10,(2,2)),columns=list('ab'))
A.add(B,fill_value=0)


(2) Series与DataFrame之间的运算
【重要】
使用Python操作符:以行为单位操作(参数必须是行),对所有行都有效。(类似于numpy中二维数组与一维数组的运算,但可能出现NaN)
使用pandas操作函数:
  axis=0:以列为单位操作(参数必须是列),对所有列都有效。
  axis=1:以行为单位操作(参数必须是行),对所有列都有效。

C.sub(C['a'],axis=0)  



a b c
0 0.0 0.0 -16.0
1 0.0 1.0 -4.0
2 0.0 4.0 -1.0


============================================
练习6:
1:假设ddd是期中考试成绩,ddd2是期末考试成绩,请自由创建ddd2,并将其与ddd相加,求期中期末平均值。
2:假设张三期中考试数学被发现作弊,要记为0分,如何实现?
3:李四因为举报张三作弊立功,期中考试所有科目加100分,如何实现?
4:后来老师发现有一道题出错了,为了安抚学生情绪,给每位学生每个科目都加10分,如何实现?


1:data2 = {'张三':[110,140,130,289],
        '李四':[80,90,60,180]}
ddd = pd.DataFrame(data2,index=['语文','数学','英语','理综'])
ddd

data3 = {"张三":[120,130,140,299],
        '李四':[60,70,80,150]}
ddd2 = pd.DataFrame(data3,index=['语文','数学','英语','理综'])
ddd2

ddd1 = ddd.add(ddd2)
ddd1
ddd1.div(2)

2:print('张三期中考试作弊,成绩为0')
ddd['张三']['数学']=0
ddd

3:print('李四检举有功,加100')
ddd['李四'] += 100
ddd

4:print('老师出错题目,每位同学加10分')
ddd2+=10
ddd2

发布了39 篇原创文章 · 获赞 16 · 访问量 7万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章