Python讀取PDF的兩種方式

原創

2019-07-30 10:32

首先要安裝庫：

pip install pdfminer3

代碼很簡單：

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO


def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
    process_pdf(rsrcmgr, device, pdfFile)
    device.close()
    content = retstr.getvalue()
    retstr.close()
    return content


pdfFile = open("Python編程：從入門到實踐.pdf", 'rb')
# pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

如果要通過url獲取，只需要把：

# pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

這行代碼的註釋去除即可……

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

EDA與RR架構設計風格的區別

EDA與RR架構的區別，事件驅動架構、請求返回架構的區別，架構師聊技術強烈推薦，詳細的可以查看這位老外分享的視頻

2024-06-10 13:46:19

KPTI——可以緩解“熔斷” (Meltdown) 漏洞的內核新特性

Linux 內核修復辦法:內核頁表隔離KPTl(kernel page table isolation) 每個進程一張頁表變成兩張:運行在內核態和運行在用戶態時分別使用各自分離的頁表 Kernel頁表包含了進程用戶空間地址的映射和K

2024-06-10 13:43:49

ARM64中的ASID地址空間標識符

1. 從ARM32到ARM64 從ARM32到ARM64不止將處理器從32位升級到了64位，還有許多性能的技術也得到了極大的提升，光是個頭長了可不行啊！能耐也得跟着長啊！哈哈哈 1.1 ARM32的TLB機制如上圖所示，上一講我們講了T

2024-06-10 13:43:49

wpf LiveCharts 使用

LiveCharts 用於顯示圖表和儀表盤安裝 LinveCharts install-package LiveCharts.Wpf 使用示例 Code <CartesiantChart> <!--圖標控件-

2024-06-10 13:39:58

模訪京東商城jQuery省市區三級聯動選擇(橫向DIV)

效果如下圖在開優網絡提供的代碼包的基礎上修改，採用了2024年民政部發部的行政區劃代碼數據，區域更全面，且壓縮了長度，爲原代碼的一半大小，整所數包只有100KB了，並修改了配色，比常用的三級SELECT控件聯動要好看的多．代碼下載地址

2024-06-10 13:31:58

Nginx圖片下載不完整的處理過程

Nginx圖片下載不完整的處理過程背景昨天同事進行了nginx的遷移然後晚上發現圖片展示不全. 自己其實之前遇到過類似的問題但是因爲熬夜比較久,腦子已經不轉了. 所以花了接近半小時才理清楚. 感覺一些事情不記錄一下, 無法加深印

濟南小老虎

2024-06-10 13:31:27

[轉帖]Linux Kernel 6.6 確認成爲 LTS 版本

https://www.kernel.org/category/releases.html Greg Kroah-Hartman 已經宣佈 Linux Kernel 6.6 版本爲長期支持 (LTS) 版本；支持期限

濟南小老虎

2024-06-10 13:31:07

[轉帖]企業如何做好SQL質量的管理？

點擊標題下「藍色微信名」可快速關注 SQL 操作數據庫對應軟件研發人員是一類基礎且常見的工作內容，無論是日常的數據庫應用開發，還是配合數據庫產品遷移的應用改造，數據庫設計和SQL的質量都是值得關注的問題。目前業界有很多提供SQL質

濟南小老虎

2024-06-10 13:31:07

信創服務器遷移注意事項

信創服務器遷移注意事項背景隨着國家隊信創要求的越來越高很多應用都需要遷移到信創服務器上面了. 遷移過程中最好是能夠進行一些基礎設置可以儘可能的避免遷移後的問題提高產品的功能,性能與易用性. 核心觀點遷移其實是一個騰籠換鳥

濟南小老虎

2024-06-10 13:31:07

NSCC集羣使用筆記

1. 賬號申請如果是 NUS，NTU 或者 ASTAR 的學生，可以直接用自己的學校 ID 登錄。登錄不上的話可以發郵件聯繫 nscc 工作人員即可，基本上第二天就會回覆解決。 2. VSCode 連接賬號申請下來後進官網設置你的 ss

2024-06-10 13:24:07

VisionPro學習筆記（7）——FitLineTool

如果需要了解其他圖像處理的文章，請移步小編的GitHub地址　　傳送門：請點擊我　　如果點擊有誤：https://github.com/LeBron-Jian/ComputerVisionPractice 　　VisionPro有很多

2024-06-10 13:09:06

CodeWF.EventBus：輕量級事件總線，讓通信更流暢

1. CodeWF.EventBus EventBus(事件總線)，用於解耦模塊之間的通訊。本庫（CodeWF.EventBus）適用於進程內消息傳遞（無其他外部依賴），與大家普遍使用的MediatR部分類似，但MediatR庫側重於ASP

2024-06-10 13:07:16

視野修煉-技術週刊第87期 | Nodejs 15 週年

歡迎來到第 87 期的【視野修煉 - 技術週刊】，下面是本期的精選內容簡介 🔥強烈推薦 js 中的經典八股 merge-anything - 深度合併對象的庫 DOM 樹深度對渲染性能的影響 🔧開源工具&技術資訊 Node.js 15

粥裏有勺糖

2024-06-10 13:06:16

國內 Github 訪問優化

修改 Hosts（推薦） 1、下載SwitchHosts 下載地址： https://github.com/oldj/SwitchHosts 2、配置參考 Hosts 類型: Remote Hosts 標題: 隨意 URL: https:/

懂了還要再懂

2024-06-10 13:04:45

如何應對缺失值帶來的分佈變化？探索填充缺失值的最佳插補算法

本文將探討了缺失值插補的不同方法，並比較了它們在復原數據真實分佈方面的效果，處理插補是一個不確定性的問題，尤其是在樣本量較小或數據複雜性高時的挑戰，應選擇能夠適應數據分佈變化並準確插補缺失值的方法。我們假設存在一個潛在的分佈P，從中得出觀

2024-06-10 13:04:45

24小時熱門文章

最新文章

最新評論文章