Python合併多個csv文件

原創

2018-09-04 06:54

導入所需的包

import os
import pandas as pd
import glob

合併多個csv文件

csv_list = glob.glob('*.csv') #查看同文件夾下的csv文件數
print(u'共發現%s個CSV文件'% len(csv_list))
print(u'正在處理............')
for i in csv_list: #循環讀取同文件夾下的csv文件
    fr = open(i,'rb').read()
    with open('result.csv','ab') as f: #將結果保存爲result.csv
        f.write(fr)
print(u'合併完畢！')

共發現9個CSV文件
正在處理............
合併完畢！

去重函數

這個函數將重複的內容去掉，主要是去表頭。

df = pd.read_csv("result.csv",header=0)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 659867 entries, 0 to 659866
Data columns (total 3 columns):
UrbanRuralCode    659867 non-null object
code              659867 non-null object
name              659867 non-null object
dtypes: object(3)
memory usage: 15.1+ MB

IsDuplicated = df.duplicated()

True in IsDuplicated

True

這說明了這個DataFrame格式的數據含有重複項。

DataFrame.drop_duplicates函數的使用

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

subset : column label or sequence of labels, optional
用來指定特定的列，默認所有列
keep : {‘first’, ‘last’, False}, default ‘first’
刪除重複項並保留第一次出現的項
inplace : boolean, default False
是直接在原來數據上修改還是保留一個副本

datalist = df.drop_duplicates(keep = False)

datalist.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 659859 entries, 0 to 659866
Data columns (total 3 columns):
UrbanRuralCode    659859 non-null object
code              659859 non-null object
name              659859 non-null object
dtypes: object(3)
memory usage: 20.1+ MB

排序函數

datalist_sorted = datalist.sort_values(by = ['code']) #按1列進行升序排序

結果寫入csv文件

datalist_sorted.to_csv("village_all.csv", sep = ',', header = True,index = False)

問題

Python讀取文件問題

錯誤信息

"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence"

解決方案

fr = open(i,'r').read() 改爲 fr = open(i,'rb').read()
with open('result.csv','a') as f: 改爲 with open('result.csv','ab') as f:

重複值問題

這裏我合併了9個csv文件，檢查最後合併結果發現，裏面還有一個列名。這是因爲9個爲文件，其中8個的列名被認爲是DataFrame的值，第1個的列名依舊爲列名，然後再去重的過程中，8個相同值被保留了1個，所以這會導致最後的csv文件多了一個列名。

解決方案

IsDuplicated = df.duplicated() 改爲 IsDuplicated = df.duplicated(keep = False) #重複數據全部去除

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python合併多個csv文件

導入所需的包

合併多個csv文件

去重函數

排序函數

結果寫入csv文件

問題

Python讀取文件問題

錯誤信息

解決方案

重複值問題

解決方案

Git分支學習

Hexo建站、部署、主題優化

Python虛擬環境實踐

GitHub的Markdown文件插入公式方法

MySQL嵌套子查詢和相關子查詢執行過程的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結