如何用 python 讀取 pdf 文件中的內容, 比如文字,圖片, 並生成新的 word 文件?

步驟:

  1. 安裝 PyPDF2 庫。
  2. 使用 PyPDF2 庫打開 PDF 文件。
  3. 使用 PyPDF2 庫讀取 PDF 文件中的文本。
  4. 使用 PyPDF2 庫讀取 PDF 文件中的圖像。
  5. 創建一個新的 Word 文檔。
  6. 將 PDF 文件中的文本和圖像添加到新的 Word 文檔中。
  7. 保存新的 Word 文件。

以下是使用 PyPDF2 庫從 PDF 文件中讀取文本和圖像並生成新的 Word 文件的示例代碼:

 

import PyPDF2

# 打開 PDF 文件
pdf = PyPDF2.PdfFileReader("my_pdf.pdf")

# 讀取 PDF 文件中的文本
text = pdf.getPage(0).extractText()

# 讀取 PDF 文件中的圖像
images = pdf.getPage(0).getImages()

# 創建一個新的 Word 文檔
word = Document()

# 將 PDF 文件中的文本和圖像添加到新的 Word 文檔中
word.add_paragraph(text)
for image in images:
  word.add_picture(image)

# 保存新的 Word 文檔
word.save("my_word_document.docx")

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章