玩轉Python：用Python處理文檔，5個必備的庫，特別實用，附代碼

原創

2024-01-07 13:57

在Python中，有幾個流行的庫用於處理文檔，包括解析、生成和操作文檔內容。以下是一些常用的庫及其簡介和簡單的代碼示例：

PyPDF2 - 用於處理PDF文件。
- 簡介：PyPDF2是一個純Python庫，用於分割、合併、轉換和提取PDF文件中的文本和元數據。
- 示例代碼：

import PyPDF2

# 打開PDF文件
pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 讀取第一頁的內容
page = pdf_reader.getPage(0)
text = page.extractText()
print(text)

pdf_file.close()

BeautifulSoup - 用於解析HTML和XML文檔。
- 簡介：BeautifulSoup是一個HTML和XML解析庫，用於提取數據，如標籤、屬性、文本等。
- 示例代碼：

from bs4 import BeautifulSoup
from urllib.request import urlopen

# 打開網頁
html = urlopen('http://example.com').read()

# 解析HTML
soup = BeautifulSoup(html, 'html.parser')

# 查找所有段落
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.get_text())

docx - 用於處理Microsoft Word文檔（.docx）。
- 簡介：docx是一個用於創建、讀取和修改.docx文件的庫。
- 示例代碼：

from docx import Document

# 創建一個新的Word文檔
doc = Document()

# 添加標題
doc.add_heading('Hello World', 1)

# 添加段落
doc.add_paragraph('This is a sample paragraph.')

# 保存文檔
doc.save('example.docx')

openpyxl - 用於處理Excel文件（.xlsx）。
- 簡介：openpyxl是一個用於讀取和寫入Excel 2010 xlsx/xlsm/xltx/xltm文件的庫。
- 示例代碼：

from openpyxl import Workbook

# 創建一個新的Excel工作簿
wb = Workbook()
ws = wb.active

# 添加數據
ws['A1'] = 'Hello'
ws['B1'] = 'World'

# 保存工作簿
wb.save('example.xlsx')

reportlab - 用於生成PDF文檔。
- 簡介：reportlab是一個用於創建PDF文檔的庫，支持複雜的佈局和樣式。
- 示例代碼：

from reportlab.pdfgen import canvas

# 創建PDF文檔
c = canvas.Canvas('example.pdf')

# 設置字體和大小
c.setFont('Helvetica', 12)

# 添加文本
c.drawString(100, 750, 'Hello World')

# 保存文檔
c.save()

請注意，這些代碼示例是爲了展示每個庫的基本用法，實際使用時可能需要根據具體需求進行調整。此外，確保在運行代碼之前已經安裝了相應的庫，可以使用pip install命令來安裝。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

玩轉Python：用Python處理文檔，5個必備的庫，特別實用，附代碼

《日本蠟燭圖》讀書筆記 & 技術分析回測

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

機器學習週刊第五期：一個離譜的數據可視化Python庫、可交互式動畫學概率統計、機器學習最全文檔、快速部署機器學習應用的開源項目、Redis 之父的最新文章

機器學習週刊第六期：哈佛大學機器學習課、Chatbot Ul 2.0 、LangChain v0.1.0、Mixtral 8x7B

機器學習週刊第4期：動手實戰人工智能、計算機科學熱門論文、免費的基於ChatGPT API的安卓端語音助手、每日數學、檢索增強 (RAG) 生成技術綜述

機器學習週刊03:如何學習深度學習？2024 年學習生成式 AI 路線圖、如何構建高效的RAG系統、蘋果騰訊最新論文、阿里DreaMoving

玩轉Python：用Python處理文檔，5個必備的庫，特別實用，附代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結