介绍

PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。
PDFMiner允许人们获取页面中文本的确切位置，以及字体或线条等其他信息。
它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它具有可扩展的PDF解析器，可用于除文本分析之外的其他目的。

特点

完全用Python编写。（适用于2.4或更高版本）
解析，分析和转换PDF文档。
PDF-1.7规范支持。（好吧，差不多）
CJK语言和垂直编写脚本支持。
各种字体类型（Type1，TrueType，Type3和CID）支持。
基本加密（RC4）支持。
PDF到HTML转换（使用示例转换器Web应用程序）。
大纲（TOC）提取。
标记内容提取。
通过对文本块进行分组来重建原始布局

安装

github:
https://github.com/euske/pdfminer/

使用

pdf2txt.py samples/simple1.pdf

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python 操作PDF库介绍之PDFMiner

介绍

特点

安装

使用

Golang爬虫代理接入的技术与实践

2023 年：改變我們工作方式的一年第一階段——研究人工智能第二階段——應用人工智能第三階段——生產力人工智能

SwiftUI Swift 初學者必讀文章大全

WWDC21 學習系列之 SwiftUI 支持將 Markdown 直接傳遞給文本Text 新特性示例代碼加入我們一起學習SwiftUI

程序員2021年書單歷史類加入我們共同進步

SQLite學習筆記之創建軟件的黃金四步和三個核心思考方向 SQLite學習筆記之創建軟件的黃金四步三個核心思考方向來自技術交流

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結