Python 操作PDF库介绍之PDFMiner

Python 操作PDF库介绍之PDFMiner

介绍

PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。
PDFMiner允许人们获取页面中文本的确切位置,以及字体或线条等其他信息。
它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于除文本分析之外的其他目的。

特点

  • 完全用Python编写。 (适用于2.4或更高版本)
  • 解析,分析和转换PDF文档。
  • PDF-1.7规范支持。 (好吧,差不多)
  • CJK语言和垂直编写脚本支持。
  • 各种字体类型(Type1,TrueType,Type3和CID)支持。
  • 基本加密(RC4)支持。
  • PDF到HTML转换(使用示例转换器Web应用程序)。
  • 大纲(TOC)提取。
  • 标记内容提取。
  • 通过对文本块进行分组来重建原始布局

安装

github:
https://github.com/euske/pdfminer/

使用

pdf2txt.py samples/simple1.pdf
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章