python 去除Excel中的重複行數據

方案一:

導入pandas

import pandas as pd
1.讀取excel中的數據;
frame = pd.DataFrame(pd.read_csv('excel的絕對路徑.csv'’, 'Sheet1'))
2.去除重複行後的數據;
data = frame.drop_duplicates(subset=’’, keep='first', inplace=’’)
drop_duplicates用法:subset=‘需要去重複的列名’, keep=‘遇到重複的時保留第一個還是保留最後一個’, inplace=‘去除重複項,還是保留重複項的副本’
3.保存去重後的數據到excel;
data.to_excel('路徑+名字.xlsx')
或者
data.to_csv(路徑+名字.csv', encoding='utf8')
方案二:

從Excel表中可以看到有兩條重複記錄

# 導入pandas包並重命名爲pd
import pandas as pd

# 讀取Excel中Sheet1中的數據
data = pd.DataFrame(pd.read_excel('test.xlsx', 'Sheet1'))

# 查看讀取數據內容
print(data)

# 查看是否有重複行
re_row = data.duplicated()
print(re_row)

# 查看去除重複行的數據
no_re_row = data.drop_duplicates()
print(no_re_row)

# 查看基於[物品]列去除重複行的數據
wp = data.drop_duplicates(['物品'])
print(wp)

# 將去除重複行的數據輸出到excel表中
no_re_row.to_excel("過濾重複行.xlsx")

輸出結果

pandas 刪除excel某一列

from openpyxl import *

filename = r’C:\Users\Desktop\a.xlsx’
wb = load_workbook(filename)
ws = wb.active
ws.delete_cols(13) #刪除第 13 列數據
ws.delete_rows(3) #刪除第 3行數據
wb.save(filename)

讀取excel部分數據並分列

import pandas as pd

#讀取excel部分數據,按照規則分列其中一部分數據
def date_divide():
    af = pd.read_excel(book,ignore_index=True,header=0)#讀取所有內容
    df = pd.read_excel(book,usecols=[8,8],ignore_index=True,header=0)#讀取部分內容
    df['機構'] = df['所在機構'].str.split('-').str[1]
    df['機構二'] = df['所在機構'].str.split('-').str[2]
    df['分組'] = df['所在機構'].str.split('-').str[3]
    df['組別'] = df['所在機構'].str.split('-').str[4]
    df['所在機構'] = df['所在機構'].str.split('-').str[0]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章