python数据清洗实战入门笔记（二）文件操作

原創

魔仙大佬

2020-05-13 21:04

第二章：数据清洗之文件读取

这是一个关于淘宝母婴产品的用户消费行为的数据集，然后基于这个数据集，做数据清洗

数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ
提取码：aai6

csv文件读写

import pandas as pd
import numpy as np

import os
# 更改文件路劲
os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')

#设置最大显示列数
pd.set_option('display.max_columns', 20)
#设置最大显示行数
pd.set_option('display.max_rows', 100)

# 婴儿信息表
baby = pd.read_csv('sam_tianchi_mum_baby.csv', encoding='utf-8')#默认将第一行作为表头,一般用utf-8编码
baby.head(10)

# 编码为gbk中文编码
# 订单数据
order = pd.read_csv('meal_order_info.csv',encoding =  'gbk', dtype = {'info_id':str,'emp_id':str})
#这里转换字段类型方便统一处理
order

excel文件读写

# 订单数据
df1 = pd.read_excel('meal_order_detail.xlsx',encoding = 'utf-8',sheet_name = 'meal_order_detail1')# 读取excel需要注明具体哪一个工作簿,否则就是第一个工作簿
df1.head(5)

df2 = pd.read_excel('meal_order_detail.xlsx',encoding = 'utf-8',sheet_name = 0)# sheet_name可以为数字，代表第几个工作簿
df2.head(5)

#保存数据
df1.to_excel('a1.xlsx',sheet_name='one',index=False)

数据库文件读写

#导入相关库
import pymysql
from sqlalchemy import create_engine

按实际情况依次填写MySQL的用户名、密码、IP地址、端口、数据库名 create_engine(‘mysql+pymysql://user:passward@IP:3306/test01’)

root 用户名
passward --密码
IP : 服务区IP
3306：端口号
test01 :数据库名称

# 建立连接
conn = create_engine('mysql+pymysql://root:123456@localhost:3306/test')
# 读取数据
sql = 'select * from meal_order_info'  #选择数据库中表名称
df1 = pd.read_sql(sql,conn)
#df1 是个dataframe格式

# # # 函数
def query(table):
    host = 'localhost'
    user = 'root'
    password = '123456'
    database = 'test'
    port = 3306
    conn = create_engine("mysql+pymysql://{}:{}@{}:{}/{}".format(user, password, host, port, database))
    #SQL语句，可以定制，实现灵活查询
    sql = 'select * from ' + table  #选择数据库中表名称    
    # 使用pandas 的read_sql函数，可以直接将数据存放在dataframe中
    results = pd.read_sql(sql,conn)
    return results
df2 =  query('dim_color')
df2

数据保存
df.to_sql(name,con=engine,if_exists=‘replace/append/fail’,index=False)
name是表名
con是连接
if_exists：表如果存在怎么处理 – append：追加 – replace：删除原表，建立新表再添加 – fail：什么都不干
index=False：不插入索引index

import os
os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')
df = pd.read_csv('baby_trade_history.csv')
try:
    df.to_sql('dim_color',con = conn, index= False,if_exists= 'replace')
    print(df.head(5))
except:
    print('error')
    
#Python是否能将数据写入数据库，很多时候取决于数据库的权限

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python数据清洗实战入门笔记（二）文件操作

第二章：数据清洗之文件读取

csv文件读写

excel文件读写

数据库文件读写

《Python进阶》学习笔记

Leetcode 3161. 物块放置查询

leetcode 60 排列序列

一个docker容器暴露多个端口

微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序

wpf附加属性理解 WPF附加属性

python數據清洗實戰入門筆記（六）數據預處理

python數據清洗實戰入門筆記（五）數據統計

python數據清洗實戰入門筆記（七）總結

害！兩小時帶你看透python數據可視化

python數據清洗實戰入門筆記（三）表處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結