PDF轉換txt

原創

我想了很多事情

2019-06-11 12:02

# -*- coding: utf-8 -*-


import sys
#reload(sys)
#sys.setdefaultencoding('utf-8')

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
import codecs
import os

def pdf_to_txt(pdf_file_path, writer):
    assert pdf_file_path.endswith('.pdf')
    fp=open(pdf_file_path,"rb")
    #創建一個與文檔相關聯的解釋器
    parser=PDFParser(fp)
    #PDF文檔對象
    doc=PDFDocument(parser)
    #鏈接解釋器和文檔對象
    parser.set_document(doc)
    #doc.set_paeser(parser)
    #初始化文檔
    #doc.initialize("")
    #創建PDF資源管理器
    resource=PDFResourceManager()
    #參數分析器
    laparam=LAParams()
    #創建一個聚合器
    device=PDFPageAggregator(resource,laparams=laparam)
    #創建PDF頁面解釋器
    interpreter=PDFPageInterpreter(resource,device)
    #使用文檔對象得到頁面集合
    for page in PDFPage.create_pages(doc):
        #使用頁面解釋器來讀取
        interpreter.process_page(page)
        #使用聚合器來獲取內容
        layout=device.get_result()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

反模式 DI anti-patterns

反模式 DI anti-patterns反模式DI anti-patterns 一、一、反模式 DI anti-patterns 1. 控制狂 Control freak 在程序設計中，"Control freak"（控制狂）通

2024-05-26 14:24:02

Win10 LTSC 2019 安裝後的一些步驟

僅作爲自己記錄使用。 1.調整Windows恢復分區(Windows RE)大小[可忽略] Win10系統更新(KB5034441)在更新時會報錯 (0x80070643)，與Win10安裝時初始化的Windows恢復分區太小有關，因此建議

2024-05-26 14:20:52

Python 潮流週刊#52：Python 處理 Excel 的資源

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-05-26 14:19:11

我對微服務架構的簡單理解

在寫架構的時候，就要想着，哪些功能是要以後可能要單獨部署的，雖然一開始寫的時候可以寫在一個解決方案裏，但那些請求的dto，和返回的視圖，業務依賴，能隨時獨立出去，完全不需要做任何操作，即使是文件夾複製移動都不需要，就能夠把該功能獨立成一個解

2024-05-26 14:17:01

賽克oj The diameter of a rectangle（笛卡爾樹）

賽氪OJ-專注於算法競賽的在線評測系統 (saikr.com) 這題是hduoj 1506的加強版，區別在於寬度不是固定爲1了，思路差不多，也是使用笛卡爾樹。參考hduoj 1506（笛卡爾樹） - Venux - 博客園 (cnblogs

2024-05-26 14:10:21

hduoj 1506（笛卡爾樹）

Problem - 1506 (hdu.edu.cn) 題意座標軸給定一些矩形，緊密排在一起，每個矩形寬度固定爲1，問形成的圖案中最大可以組成的矩形面積。思路常規思路是可以用單調棧分別找兩邊的合法邊界，這裏使用笛卡爾樹。笛卡爾樹實現了

2024-05-26 14:10:21

C# enum枚舉爲0的時候不需要強制轉換，很容易掉坑

重載的時候優先級很高很容易掉坑裏面了

2024-05-26 14:09:41

Qt支持heic圖片顯示

目錄一、背景二、Heic圖片顯示heif庫安裝圖片顯示三、參考文章原文鏈接：Qt支持heic圖片顯示一、背景小孩子兩歲了，最近在着手給娃做生活照紀念相冊，然後就是某寶上各種聊，瞭解到的相冊種類也是各異，價格更是良莠不齊，小几十到小几百

2024-05-26 14:08:50

Spring的BeanFactoryPostProcessor和BeanPostProcessor區別？

1、BeanFactoryPostProcessor是用於在容器實例化Bean之前對Bean的配置信息進行修改的接口，它允許對BeanFactory進行後處理，比如修改BeanDefinition的屬性值等。 BeanFactoryPo

2024-05-26 14:02:20

WPF一個簡單的屬性編輯控件

代碼： public class PropertiesControl : Grid { [TypeConverter(typeof(LengthConverter))] public d

2024-05-26 14:02:00

外企也半夜發佈上線嗎？

0 別把問題想得太複雜如果有灰度發佈的能力，最好白天發佈；如果沒有灰度發佈，只能在半夜發佈。即使有灰度發佈能力，也不要沾沾自喜，好好反思一下你們的灰度發佈是否真的經得起考驗，還是僅僅是裝裝樣子。回滾方案最好在上級環境中使用生產數

路人111122233

2024-05-26 14:00:39

從零手寫實現 nginx-01-爲什麼不能有 java 版本的 nginx?

前言大家好，我是老馬。很高興遇到你。作爲一個 java 開發者，工作中一直在使用 nginx。卻發現一直停留在使用層面，無法深入理解。有一天我在想，爲什麼不能有一個 java 版本的 nginx 呢？一者是理解 nginx 的設計靈

2024-05-26 13:59:39

Nginx R31 doc-11-Compression and Decompression 壓縮與解壓縮

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-05-26 13:59:39

【轉】centos7.9源碼安裝mysql5.7.44

原文：https://blog.csdn.net/SeeYouGoodBye/article/details/135231451 1、環境介紹 centos7.9 mysql5.7.44 boost1.59.0 注意：這裏的編譯版本my

2024-05-26 13:58:49

prompt內容

# 角色你的名字叫小二招聘管家 ## 技能### 技能1: 職位需求分析- 透徹理解企業招聘需求，明確崗位職責、必備技能和資格要求。- 分析企業文化與團隊結構，確保候選人與企業環境的契合度。 ### 技能2: 簡歷篩選與評估- 快速瀏覽並篩

2024-05-26 13:58:19

24小時熱門文章

Python 潮流週刊#52：Python 處理 Excel 的資源

最新文章

最新評論文章