python数据清洗实战入门笔记（三）表处理

原創

魔仙大佬

2020-05-16 22:54

数据清洗之数据表处理

数据筛选

练习

数据增加和删除

练习

数据的修改和查找

练习

数据整理

练习

层次化索引

练习

数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ
提取码：aai6

数据筛选

练习

import pandas as pd
import numpy as np
import os
# 更改文件路劲
os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')
df = pd.read_csv('baby_trade_history.csv', encoding='utf-8',dtype={'user_id':str})

#数据筛选
#查看数据

df.info()

简单索引
df['user_id']

df['user_id'][1:5]# 第二行到第五行(左开右闭)

# 多个变量选择
df[:5][['user_id','buy_mount','day']]

# loc和iloc 的使用
df.loc[3:4]# 选择行索引标签

df.loc[:,['user_id','buy_mount']]#选择某两列

df.loc[1:3,['user_id','buy_mount']] #loc在这里选择的是行索引标签

df.loc[df.user_id =='786295544',['user_id','buy_mount','day']]

df.loc[(df.user_id =='786295544') | (df.user_id =='444069173'),['user_id','buy_mount','day']]# 多个条件选择

#注意iloc是位置

df.iloc[:,1:4] #按照位置来选择第二列到第四列（左开右闭和df的选择一样）

df.iloc[:,[0,2]] # 按照位置来选择第1列和第3列，这和上面不一样，左开右开，如果加了[]中间用,号

df.iloc[3,[1,2]] #选择第4行，第2列和第3列数据, 这里的3代表的不是索引标签而是位置

df.iloc[2:7,[1,2]] #选择第3行到第7行，第2列和第3列数据

注意loc和iloc的区别

df.loc[1:5]#索引，就是1行到5行

df.iloc[1:5]#位置，第二行到第五行（左开右闭）

数据增加和删除

练习

#增加一列,购买量,购买量超过3的为高，低于3的为底
df['购买量'] = np.where(df['buy_mount'] >3,'高','低')
df
# 增加行在dataframe中不常用，后面会用其他方法实现
# 可以使用append方法在 dataframe末尾实现

可以使用insert方法
df.insert(位置,变量名称，值)
将auction_id取出来，放在一列

# 先将这一列取出来，赋值给对象auction_id,然后在数据中删除这一列，再将其添加进去
auction_id = df['auction_id']
del df['auction_id']
df.insert(0, 'auction_id', auction_id)
df.head(5)

删除

# 删除这两列,加inplace代表是否在原数据上操作,1代表沿着列的方向
# 同时删除多个变量，需要以列表的形式
# 注意inplace =True,代表是否对原数据操作, 否则返回的是视图，并没有对原数据进行操作
# labels表示删除的数据, axis表示作用轴，inplace=True表示是否对原数据生效,
# axis=0按行操作, axis=1按列操作
df.drop(labels = ['property', '购买量'],axis = 1,inplace=True) #删除这两列,加inplace代表是否在原数据上操作, 1代表沿着列的方向
df.head(5)

# 按行删除法
df.drop(labels = [3,4],inplace = True,axis= 0) # 删除索引标签3和4对应的行
df.drop(labels= range(6,11),axis=0,inplace=True)  #删除索引名称1到10,注意range迭代器产生的是1到100
df.head(10)

数据的修改和查找

练习

df1 = pd.read_csv('sam_tianchi_mum_baby.csv',encoding = 'utf-8',dtype =str)
df1.head(5)

# 将gender为0的改为女性，1改为男性，2改为未知
df1.loc[df1['gender'] =='0','gender'] ="女性"
df1.loc[df1['gender'] =='1','gender'] ='男性'
df1.loc[df1['gender'] =='2','gender'] ='未知'
df1.head(10)

修改列名称
basic.rename(columns={},index={})

# 修改列标签和行索引名称
df1.rename(columns = {'user_id':'用户ID','birthday':'出生日期','gender':'性别'},inplace = True)
df1.rename(index = {1:'one',10:'ten' },inplace = True) #修改行索引名称
df1.head(11)

df1.reset_index(drop=True,inplace=True)# 重置索引
df1.head(11)

查询

# 条件查询
df[df.buy_mount > 3] #性别等于未知

df[~(df.buy_mount > 3)] # ~代表非

df[ (df.buy_mount > 3) &  (df.day > 20140101)] # 多条件查询

#使用between,inclusive=True代表包含
df[ df['buy_mount'].between(4,10,inclusive=True)]

# 使用pd.isin()方法
# 包含
df[df['auction_id'].isin([41098319944, 17916191097,21896936223])]

数据整理

横向堆叠在数据清洗中不常用，纵向堆叠可以理解为把不同的表,字段名称一样整合在一起

练习

import xlrd
workbook = xlrd.open_workbook('meal_order_detail.xlsx')
sheet_name = workbook.sheet_names() #返回所有sheet的列表
sheet_name

order1 = pd.read_excel('meal_order_detail.xlsx',sheet_name ='meal_order_detail1')
order2 = pd.read_excel('meal_order_detail.xlsx',sheet_name ='meal_order_detail2')
order3 = pd.read_excel('meal_order_detail.xlsx',sheet_name ='meal_order_detail3')
order = pd.concat([order1,order2,order3],axis=0,ignore_index=False)# 忽略原来的索引
print(order1.shape)
print(order2.shape)
print(order3.shape)
print(order.shape)

# 通过循环方式进行合并
basic = pd.DataFrame()
for i in sheet_name:
    basic_i = pd.read_excel('meal_order_detail.xlsx', header = 0,sheet_name=i,encoding='utf-8')
    basic = pd.concat([basic,basic_i],axis=0)
basic.shape

关联
关联字段必须类型一致

df3 = pd.read_csv('baby_trade_history.csv', encoding='utf-8',dtype={'user_id':str})# 交易数据
df4 = pd.read_csv('sam_tianchi_mum_baby.csv',encoding = 'utf-8',dtype =str)#婴儿信息
df5 = pd.merge(left = df3, right=df4,  how='inner',  left_on='user_id', right_on = 'user_id')# 内连接
df5.head(10)

层次化索引

练习

df = pd.read_csv('baby_trade_history.csv', encoding='utf-8',dtype={'user_id':str},index_col=[3,1])#将数据第4列和第1列当成索引
df.head()

df.loc[28]#第一层引用

df.loc[28].loc[17916191097]#第二层引用

直接引用两层
df3.loc[(a,b),:] #a和b分别代表第一层和第二层的索引
接受tuple

df.loc[(28,[17916191097,532110457]),:]# 第二层索引选择，多个选择
df

df.loc[(28,[17916191097,532110457]),['auction_id','cat_id']]# 第二层索引选择，选择2个变量

df.loc[([28,50014815])] #第一层索引为28和50014815

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python数据清洗实战入门笔记（三）表处理

数据清洗之数据表处理

数据筛选

练习

数据增加和删除

练习

数据的修改和查找

练习

数据整理

练习

层次化索引

练习

《Python进阶》学习笔记

Leetcode 3161. 物块放置查询

leetcode 60 排列序列

一个docker容器暴露多个端口

微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序

wpf附加属性理解 WPF附加属性

python數據清洗實戰入門筆記（六）數據預處理

python數據清洗實戰入門筆記（五）數據統計

python數據清洗實戰入門筆記（七）總結

害！兩小時帶你看透python數據可視化

python數據清洗實戰入門筆記（三）表處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結