Python 操作PDF庫介紹之PDFMiner

Python 操作PDF庫介紹之PDFMiner

介紹

PDFMiner是一種從PDF文檔中提取信息的工具。與其他PDF相關工具不同,它完全專注於獲取和分析文本數據。
PDFMiner允許人們獲取頁面中文本的確切位置,以及字體或線條等其他信息。
它包括一個PDF轉換器,可以將PDF文件轉換爲其他文本格式(如HTML)。它具有可擴展的PDF解析器,可用於除文本分析之外的其他目的。

特點

  • 完全用Python編寫。 (適用於2.4或更高版本)
  • 解析,分析和轉換PDF文檔。
  • PDF-1.7規範支持。 (好吧,差不多)
  • CJK語言和垂直編寫腳本支持。
  • 各種字體類型(Type1,TrueType,Type3和CID)支持。
  • 基本加密(RC4)支持。
  • PDF到HTML轉換(使用示例轉換器Web應用程序)。
  • 大綱(TOC)提取。
  • 標記內容提取。
  • 通過對文本塊進行分組來重建原始佈局

安裝

github:
https://github.com/euske/pdfminer/

使用

pdf2txt.py samples/simple1.pdf
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章