python解析pdf(轉化pdf爲文本)歡迎提問

原創

一二三四！

2020-02-25 17:19

雖然下面的代碼是在別地學的，但是我也是被挖坑了好多次

# -*- coding: utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import *
from pdfminer.converter import PDFPageAggregator
import os

fp = open('424B536CA3234140B86432E219F6E9F2.pdf', 'rb')
#來創建一個pdf文檔分析器
parser = PDFParser(fp)
#創建一個PDF文檔對象存儲文檔結構
document = PDFDocument(parser)
# 檢查文件是否允許文本提取
if not document.is_extractable:
    raise PDFTextExtractionNotAllowed
else:
    # 創建一個PDF資源管理器對象來存儲共賞資源
    rsrcmgr=PDFResourceManager()
    # 設定參數進行分析
    laparams=LAParams()
    # 創建一個PDF設備對象
    # device=PDFDevice(rsrcmgr)
    device=PDFPageAggregator(rsrcmgr,laparams=laparams)
    # 創建一個PDF解釋器對象
    interpreter=PDFPageInterpreter(rsrcmgr,device)
    # 處理每一頁
    for page in PDFPage.create_pages(document):
        interpreter.process_page(page)
        # 接受該頁面的LTPage對象
        layout=device.get_result()
        for x in layout:
            if(isinstance(x,LTTextBoxHorizontal)):
                with open('a.txt','a') as f:
                    f.write(x.get_text()+'\n')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

解密Prompt系列31. LLM Agent之從經驗中不斷學習的智能體

Agent智能體的工作流可以簡單分成兩種：一種是固定的靜態工作流，一種是智能體自主決策的動態工作流。靜態流程的Agent舉幾個例子，例如新聞熱點追蹤推送Agent，每日新論文摘要總結Agent，它們的優點是可控，穩定，可復現，缺點是一種流

風雨中的小七

2024-06-11 14:22:16

第十二節：MySQL8.x版本新特性和變化

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-06-11 14:21:36

杭州的 IT 崩盤了麼？

大家好，我是R哥。今天分享一個爽飛了的面試輔導 case：這個杭州兄弟空窗期 1 個月+，面試了 6 家公司 0 Offer，不知道問題出在哪，難道是杭州的 IT 崩盤了麼？報名面試輔導後，經過一個多月的輔導打磨，現在成功入職某上市

2024-06-11 14:21:26

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

　　《Windows Azure Platform 系列文章目錄》　　部署環境：　　1.我們只有1個訂閱，1個Virtual Network 　　2.我們有1個Hub-VNet, 在Virtual Network上設置了DNS Se

Lei Zhang的博客

2024-06-11 14:20:36

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

vs2022開發工具最低支持net4.8，以下的如net3.5、4.0、4.5項目，加載不上怎麼處理。一、下載.NET Framework框架 .NET Framework 4.5.2 .NET Framework 4.5.1 .NET

鄭州-在路上

2024-06-11 14:20:26

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

大家好，我是貓哥，今天給大家分享幾個高質量的技術類信息源。本文分享的信息源都是週刊類型的，所謂週刊類，就是以固定每週的頻率更新，每期分享很多精華內容的鏈接。它的特點是信息密度極高，可以節省你去查找信息的時間，高效的學習者都會喜歡這類內容。

豌豆花下貓

2024-06-11 14:19:16

統計vertica表的行數

select anchor_table_schema || '.' || anchor_table_name as table_name, row_countfrom PROJECTION_STORAGEorder by row_co

卡卡西村長

2024-06-11 14:19:16

開源高性能結構化日誌模塊NanoLog

最近在寫數據庫程序，需要一個高性能的結構化日誌記錄組件，簡單研究了一下Microsoft.Extensions.Logging和Serilog，還是決定重造一個輪子。一、使用方法直接參考以下示例代碼: NanoLogger.St

2024-06-11 14:18:16

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

目錄錯誤原因解決方案 app.config.globalProperties 用法坑Vue，多環境配置 https://www.cnblogs.com/vipsoft/p/16696640.html main.js import conf

2024-06-11 14:15:15

Vue 打包 Error: error:0308010C:digital envelope routines::unsupported

這個錯誤通常與Node.js的加密模塊和OpenSSL版本有關出現這個錯誤是因爲 node.js V17版本中最近發佈的OpenSSL3.0, 而OpenSSL3.0對允許算法和密鑰大小增加了嚴格的限制，可能會對生態系統造成一些影響. j

2024-06-11 14:15:05

Windows 允許空密碼遠程桌面

Windows 允許空密碼遠程桌面開啓遠程修改策略輸入命令 secpol.msc 本地策略 -> 安全選項 -> 帳戶：使用空密碼的本地帳戶只允許進行控制檯登錄

2024-06-11 14:15:05

dubbo~全局異常攔截器的使用與設計缺陷~續

上一次的介紹，主要圍繞如何統一去捕獲異常，以及爲每一種異常添加自己的Mapper實現，並且我們知道，當在ExceptionMapper中返回非200的Response，不支持application/json的響應類型，而是寫死的text/p

2024-06-11 14:12:35

如何安全地訪問互聯網

當你深夜在瀏覽器中輸入 www.baidu.com 時有沒有想過，除了月黑風高的夜和本機的瀏覽記錄，還有誰知道你訪問了它呢？要搞清楚這件事，首先我們要了解一下訪問網站時，這其中發生了什麼。如果你在 10 年之前訪問網站，大概率會在瀏覽器的

2024-06-11 14:08:15

前端使用 Konva 實現可視化設計器（14）- 折線 - 最優路徑應用【代碼篇】

話接上回《前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】》，這一章繼續說說相關的代碼如何構思的，如何一步步構建數據模型可供 AStar 算法進行路徑規劃，最終畫出節點之間的連接折線。請大家動動小手，給

2024-06-11 14:08:05

[快速閱讀七] Halcon裏emphasize函數相關資料.

　　時不時有人問我我的SSE優化Demo裏emphasize（邊緣強調）的原理是啥，有沒有寫博客，其實不是我不願意寫博客，而是那個東西太過於簡單，我不想寫博客。但是耐不住問的人多了，我就乾脆複製點資料放在博客裏吧，省的每次我還要去找點資料複

2024-06-11 14:08:05

24小時熱門文章

最新文章

最新評論文章