如何使用Python將PDF轉爲Excel

PDF文件是一種靜態文檔格式,通常難以編輯,而Excel則是一個靈活的表格工具。如果你需要處理PDF表格中的數據,那麼將其導出爲Excel文件可以大大節省工作時間和精力。Excel提供的強大數據編輯和格式化功能,允許你對轉換後的PDF數據進行修改、排序、篩選、計算等操作。同時,你還可以調整單元格大小、更改字體、應用樣式等。本文將提供在Python中將PDF表格轉換爲Excel文件的解決方案。


一、環境準備

需要先安裝Spire.PDF for Python庫來幫助實現PDF轉Excel。可以通過以下pip命令安裝:(或參考 如何在 VS Code 中安裝 Spire.PDF for Python

pip install Spire.PDF

 

二、Python 將PDF轉爲Excel 實現步驟

1. 加載PDF文檔。

2. 創建 XlsxLineLayoutOptions 類的對象來指定轉換選項。

3. 應用上述設置的轉換選項,然後使用 PdfDocument.SaveToFile() 將PDF文件保存爲Excel xlsx表格。

其中XlsxLineLayoutOptions類的構造函數接受以下5個參數:

參數  描述
convertToMultipleSheet (bool)  表示是否將多個 PDF 頁面渲染到一個 Excel 工作表中
rotatedText (bool)  表示是否顯示旋轉的文本
splitCell (bool) 表示一個包含多行文本的 PDF 表格單元格是否會在 Excel 中被拆分成多行
wrapText (bool)  表示是否對 Excel 單元格中的文本進行換行
overlapText (bool)  表示是否顯示重疊的文本

 

 

 

 

 

 

 

測試代碼:

from spire.pdf.common import *
from spire.pdf import *
 
# 創建PdfDocument對象
pdf = PdfDocument()
 
# 加載PDF文檔
pdf.LoadFromFile("數據.pdf")
 
# 創建 XlsxLineLayoutOptions 對象來指定轉換選項
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)
 
# 設置轉換選項
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)
 
# 將PDF文檔保存爲Excel XLSX格式
pdf.SaveToFile("Pdf轉Excel.xlsx", FileFormat.XLSX)
pdf.Close()
 

 

轉換結果:

 

實現更多Python對PDF文檔的處理功能:Spire.PDF for Python 中文教程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章