Python 操作PDF庫介紹之PDFMiner
介紹
PDFMiner是一種從PDF文檔中提取信息的工具。與其他PDF相關工具不同,它完全專注於獲取和分析文本數據。
PDFMiner允許人們獲取頁面中文本的確切位置,以及字體或線條等其他信息。
它包括一個PDF轉換器,可以將PDF文件轉換爲其他文本格式(如HTML)。它具有可擴展的PDF解析器,可用於除文本分析之外的其他目的。
特點
- 完全用Python編寫。 (適用於2.4或更高版本)
- 解析,分析和轉換PDF文檔。
- PDF-1.7規範支持。 (好吧,差不多)
- CJK語言和垂直編寫腳本支持。
- 各種字體類型(Type1,TrueType,Type3和CID)支持。
- 基本加密(RC4)支持。
- PDF到HTML轉換(使用示例轉換器Web應用程序)。
- 大綱(TOC)提取。
- 標記內容提取。
- 通過對文本塊進行分組來重建原始佈局
安裝
github:
https://github.com/euske/pdfminer/
使用
pdf2txt.py samples/simple1.pdf