0. 前言
從網頁爬下來的大量數據需要清洗?
成堆的科學實驗數據需要導入 Excel 進行分析?
有成堆的表格等待統計?
作爲人生苦短的 Python 程序員,該如何優雅地操作 Excel?
得益於前人的辛勤勞作,Python 處理 Excel 已有很多現成的輪子,使用較多的有:
xlwings
[](http://crossin-forum.b0.upaiy...
提醒及注意:
- xlutils 僅支持 xls 文件,即2003以下版本;
- win32com 與 DataNitro 僅支持 windows 系統;
- xlwings 安裝成功後,如果運行提示報錯“ImportError: no module named win32api”,請再安裝 pypiwin32 或者 pywin32 包;
- win32com 不是獨立的擴展庫,而是集成在其他庫中,安裝 pypiwin32 或者 pywin32 包即可使用;
- DataNitro 是 Excel 的插件,安裝需到官網下載。
2. 文檔操作
雖然大家都是操作 Excel,但即使最基本的新建文件、修改文件、保存文件等功能,在不同的庫中也存在差異。比如 xlsxwriter 並不支持打開或修改現有文件,xlwings 不支持對新建文件的命名,DataNitro 作爲 Excel 插件需依託於軟件本身,pandas 新建文檔需要依賴其他庫等等。
3. 基本功能
由於設計目的不同,每個模塊通常着重於某一方面功能,各有所長。
xlwings
可結合 VBA 實現對 Excel 編程,強大的數據輸入分析能力,同時擁有豐富的接口,結合 pandas/numpy/matplotlib 輕鬆應對 Excel 數據處理工作。
openpyxl
簡單易用,功能廣泛,單元格格式/圖片/表格/公式/篩選/批註/文件保護等等功能應有盡有,圖表功能是其一大亮點,缺點是對 VBA 支持的不夠好。
pandas
數據處理是 pandas 的立身之本,Excel 作爲 pandas 輸入/輸出數據的容器。
win32com
從命名上就可以看出,這是一個處理 windows 應用的擴展,Excel 只是該庫能實現的一小部分功能。該庫還支持 office 的衆多操作。需要注意的是,該庫不單獨存在,可通過安裝 pypiwin32 或者 pywin32 獲取。
xlsxwriter
擁有豐富的特性,支持圖片/表格/圖表/篩選/格式/公式等,功能與openpyxl相似,優點是相比 openpyxl 還支持 VBA 文件導入,迷你圖等功能,缺點是不能打開/修改已有文件,意味着使用 xlsxwriter 需要從零開始。
DataNitro
作爲插件內嵌到 Excel 中,可完全替代 VBA,在 Excel 中使用 python 腳本。既然被稱爲 Excel 中的 python,協同其他 python 庫亦是小事一樁。然而,這是付費插件...
xlutils
基於 xlrd/xlwt,老牌 python 包,算是該領域的先驅,功能特點中規中矩,比較大的缺點是僅支持 xls 文件。
4.性能
我們對幾個庫做了最基本的寫入和讀取測試,分別使用不同庫進行添加及讀取 1000行 * 700列 數據操作,得到所用時間,重複操作取平均值。另外在不同的電腦配置,不同的環境下結果肯定會有出入,數據僅供參考。
注:
- xlutils 最多隻能寫入 256 列,即 1000*256,用時3.8秒,表現不錯;
- DataNitro 與 xlsxwriter 不能打開 Excel 文件。
5. 小結
通過以上的分析,相信大家對幾個庫都有了簡單的瞭解。在編寫文章的過程中,筆者也在思考各個庫最適合的應用場景。
- 不想使用 GUI 而又希望賦予 Excel 更多的功能,openpyxl 與 xlsxwriter,你可二者選其一;
- 需要進行科學計算,處理大量數據,建議 pandas+xlsxwriter 或者 pandas+openpyxl;
- 想要寫 Excel 腳本,會 Python 但不會 VBA 的同學,可考慮 xlwings 或 DataNitro;
- 至於 win32com,不管是功能還是性能都很強大,有 windows 編程經驗的同學可以使用。不過它相當於是 windows COM 的封裝,自身並沒有很完善的文檔,新手使用起來略有些痛苦。
你可根據自己的需求和生產環境,選擇合適的 Python-Excel 模塊。
6. 代碼示例
最後,附上一些演示代碼,大家可自行體會下不同模塊的使用。
6.1 xlwings基本代碼
import xlwings as xw
#連接到excel
workbook = xw.Book(r'path/myexcel.xlsx')#連接excel文件
#連接到指定單元格
data_range = workbook.sheets('Sheet1').range('A1')
#寫入數據
data_range.value = [1,2,3]
#保存
workbook.save()
6.2 xlsxwriter基本代碼
import xlsxwriter as xw
#新建excel
workbook = xw.Workbook('myexcel.xlsx')
#新建工作薄
worksheet = workbook.add_worksheet()
#寫入數據
worksheet.wirte('A1',1)
#關閉保存
workbook.close()
6.3 xlutils基本代碼import xlrd #讀取數據
import xlwt #寫入數據
import xlutils #操作excel
#----xlrd庫
#打開excel文件
workbook = xlrd.open_workbook('myexcel.xls')
#獲取表單
worksheet = workbook.sheet_by_index(0)
#讀取數據
data = worksheet.cell_value(0,0)
#----xlwt庫
#新建excel
wb = xlwt.Workbook()
#添加工作薄
sh = wb.add_sheet('Sheet1')
#寫入數據
sh.write(0,0,'data')
#保存文件
wb.save('myexcel.xls')
#----xlutils庫
#打開excel文件
book = xlrd.open_workbook('myexcel.xls')
#複製一份
new_book = xlutils.copy(book)
#拿到工作薄
worksheet = new_book.getsheet(0)
#寫入數據
worksheet.write(0,0,'new data')
#保存
new_book.save()
6.4 win32com基本代碼
import win32com.client as wc
#啓動Excel應用
excel_app = wc.Dispatch('Excel.Application')
#連接excel
workbook = excel_app.Workbooks.Open(r'e:/myexcel.xlsx' )
#寫入數據
workbook.Worksheets('Sheet1').Cells(1,1).Value = 'data'
#關閉並保存
workbook.SaveAs('newexcel.xlsx')
excel_app.Application.Quit()
6.5 openpyxl基本代碼
import openpyxl
# 新建文件
workbook = openpyxl.Workbook()
# 寫入文件
sheet = workbook.activesheet['A1']='data'
# 保存文件
workbook.save('test.xlsx')
6.6 DataNitro基本代碼
#單一單元格賦值
Cell('A1').value = 'data'
#單元區域賦值
CellRange('A1:B2').value = 'data'
其他文章及回答:
[](http://crossin-forum.b0.upaiy...