使用Python 实现 PDF 到 HTML 的转换

原創

2024-04-08 14:13

PDF 文件是共享和分发文档的常用选择，但提取和再利用 PDF 文件中的内容可能会非常麻烦。而利用 Python 将 PDF 文件转换为 HTML 是解决此问题的理想方案之一，这样做可以增强文档可访问性，使文档可搜索，同时增强文档在不同场景中的实用性。此外，HTML 格式使得搜索引擎能够对内容进行索引，从而更有可能在网络上被发现。借助 Python 的灵活性和易用性，无论是初学者还是有经验的开发人员都可以轻松高效地使用 Python 来将 PDF 转换为 HTML。

本文重点介绍如何在 Python 程序中将 PDF 转换为 HTML，主要包括以下内容：

使用Python 将 PDF 转换为 HTML 方法概览
使用 Python 代码将 PDF 转换为单个 HTML 文件
使用 Python 将 PDF 转换为不嵌入图像的 HTML
使用 Python 将 PDF 转换为多个 HTML 文件

本文介绍的方法使用了 Spire.PDF for Python 工具，可以从官网下载，也可以通过 PyPI 进行安装：

pip install Spire.PDF

Python PDF 转 HTML 方法概览

在 Spire.PDF for Python 中，PdfDocument 类表示一个 PDF 文档。我们可以使用该类下的 LoadFromFile() 方法加载 PDF 文件，然后使用 SaveToFile() 方法将文档保存为其他格式，如 HTML，从而轻松实现从 PDF 到 HTML 的转换。

此外，该 API 还提供了 PdfDocument.ConvertOptions 属性下的 SetConvertHtmlOptions() 方法，用于在转换过程中设置转换选项。以下是可以传递给该方法的参数，用于设置最大页数、SVG 嵌入选项、图像嵌入选项和 SVG 质量选项：

useEmbeddedSvg(bool)：当设置为 True 时，允许在转换后的 HTML 文件中嵌入 SVG。生成的 HTML 文件将包含 PDF 文档中的所有元素，包括图像，都在一个 HTML 文件中。
useEmbeddedImg(bool)：当设置为 True 时，允许在转换后的 HTML 文件中嵌入图像。此参数仅在 useEmbeddedSvg 设置为 False 时起作用。
maxPageOneFile(int)：设置单个 HTML 文件中包含的最大页数。如果 PDF 的页数超过指定的数字，将生成多个 HTML 文件，每个文件包含部分页数。
useHighQualityEmbeddedSvg(bool)：当设置为 True 时，在 HTML 转换过程中确保使用高质量的嵌入 SVG 图像。

使用 Python 将 PDF 转换为单个 HTML 文件

以下代码示例展示了如何直接使用 Python 将 PDF 转换为 HTML，不设置任何转换选项。在这种情况下，我们只需要使用 LoadFromFile 方法加载 PDF 文件，并使用 SaveToFile 方法将其保存为 HTML 文件。转换后的 HTML 文件将是一个包含嵌入图像和其他元素的单个 HTML 文件。

from spire.pdf.common import *
from spire.pdf import *

# 创建一个PdfDocument类的对象
doc = PdfDocument()

# 加载一个PDF文档
doc.LoadFromFile("示例.pdf")

# 将文档转换为HTML
doc.SaveToFile("output/HTML/PDF转HTML.html", FileFormat.HTML)
doc.Close()

转换效果：

使用 Python 将 PDF 转换为不嵌入图像的 HTML

通过将 useEmbeddedSvg 参数设置为 False，我们可以将 PDF 文档转换为不嵌入图像等信息的单 HTML 文件，文档中的图像和 CSS 文件与 HTML 分离并存储在一个文件夹中。这样可以方便对转换后的 HTML 文件进行进一步编辑，以及对图像进行其他操作。

from spire.pdf.common import *
from spire.pdf import *

# 创建一个PdfDocument类的对象
doc = PdfDocument()

# 加载一个PDF文档
doc.LoadFromFile("示例.pdf")

# 禁用SVG嵌入
doc.ConvertOptions.SetPdfToHtmlOptions(False)

# 将文档转换为HTML
doc.SaveToFile("output/HTML/PDF转不嵌入SVG的HTML.html", FileFormat.HTML)
doc.Close()

转换结果：

使用 Python 将 PDF 转换为多个 HTML 文件

在 useEmbeddedSvg 设置为 False 的前提下，SetPdfToHtmlOptions 方法允许使用 maxPageOneFile(int) 参数确定每个转换后的 HTML 文件中包含的最大页数。此功能可实现将 PDF 文档在转换过程中拆分成多个文件。例如，将该参数设置为 1 将使每个页面被转换为一个单独的 HTML 文件。

from spire.pdf.common import *
from spire.pdf import *

# 创建一个PdfDocument类的对象
doc = PdfDocument()

# 加载一个PDF文档
doc.LoadFromFile("示例.pdf")

# 禁用SVG嵌入
doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False)

# 将文档转换为HTML
doc.SaveToFile("output/HTML/PDF转多个HTML.html", FileFormat.HTML)
doc.Close()

转换结果：

总结

本文演示了如何使用 Python 将 PDF 转换为 HTML，并提供了多种转换选项，例如转换为单个 HTML 文件、将 HTML 文件与图像分离以及在转换过程中拆分 PDF 文档。借助 Spire.PDF for Python，用户可以使用简单高效的方法进行 Python 中的 PDF 到 HTML 转换，并支持灵活的自定义选项。

如果在使用该 API 进行 PDF 到 HTML 转换时遇到任何问题，用户可以在 Spire 产品论坛上寻求技术支持。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用Python 实现 PDF 到 HTML 的转换

Python PDF 转 HTML 方法概览

使用 Python 将 PDF 转换为单个 HTML 文件

使用 Python 将 PDF 转换为不嵌入图像的 HTML

使用 Python 将 PDF 转换为多个 HTML 文件

总结

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

.NET周刊【5月第2期 2024-05-12】

使用 Python 旋轉PDF頁面、或調整PDF頁面順序

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

C# 批量刪除Excel中的重複行

使用C# 創建、填寫、刪除PDF表單域

C# 凍結Excel窗口以鎖定行列、或解除凍結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結