使用pdfplumber讀取PDF

原創

2020-12-09 14:02

pdfplumber安裝

安裝直接採用pip即可。命令行中輸入

pip install pdfplumber

如果要進行可視化的調試，則需要安裝ImageMagick。

Pdfplumber
ImageMagick
GhostScript

簡單使用

最基本的用法如下，讀取pdf中的某一頁。

import pdfplumber
with pdfplumber.open("path/to/file.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.chars[0])

pdfplumber.pdf中包含了.metadata和.pages兩個屬性。

.metadata是一個包含pdf信息的字典。
.pages是一個包含頁面信息的列表。

每個pdfplumber.page的類中包含了幾個主要的屬性。

.page_number 頁碼
.width 頁面寬度
.height 頁面高度
.objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表，每個列表都包含一個字典，每個字典用於說明頁面中的對象信息，包括直線，字符，方格等位置信息。

一些常用的方法

.extract_text() 用來提頁面中的文本，將頁面的所有字符對象整理爲的那個字符串
.extract_words() 返回的是所有的單詞及其相關信息
.extract_tables() 提取頁面的表格
.to_image() 用於可視化調試時，返回PageImage類的一個實例

import pdfplumber
import pandas as pd

with pdfplumber.open("財務報告.pdf") as pdf:
    page = pdf.pages[1]   # 第一頁的信息
    text = page.extract_text()
    print(text)
    table = page.extract_tables()
    for t in table:
        # 得到的table是嵌套list類型，轉化成DataFrame更加方便查看和分析
        df = pd.DataFrame(t[1:], columns=t[0])
        print(df)

學習資源1
學習資源2

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SGDMA與普通DMA

DMA（Direct memory access，內存直接存取），屬於 Vectored I/O 方式，也是下沉運算的一種實現。區別 Scatter-gather DMA 與 Block DMA（即普通DMA）方式不同， Block D

藍天上的雲℡

2024-05-02 14:21:20

完美替代postman的軟件

張博的博客

2024-05-02 14:19:50

mysql 條件查詢

https://blog.csdn.net/qq_57005976/article/details/129006241

張博的博客

2024-05-02 14:19:50

用json來存數據的思路. json類型數據庫的思路.

2024-04-29,23點33 看看另外一種只用mysql來維護json持續化.然後flask維護一個內存裏面的json來查詢用是不是可行. 每次啓動服務,先把所有mysql中的json字符串,反序列化成一個變量. 每次修改數據,就更新m

張博的博客

2024-05-02 14:19:50

Vue | babel.config.js 配置詳解

babel.config.js 1 概述Babel 相當於一箇中介，一邊是用戶，另一邊是瀏覽器。這幾年，JavaScript 發生了很大的變化，許多新特性在很多瀏覽器裏都不支持。Babel 的主要作用就是規避這些問題，可以確保 Java

2024-05-02 14:10:29

Vue項目中main.js、App.vue、import...from...等的作用和意義

https://www.cnblogs.com/webwangjie/p/11471542.html 一、main.js 　 1、 main.js 程序入口文件，初始化vue實例，並引入使用需要的插件和各種公共組件. imp

2024-05-02 14:10:29

Vue .eslintignore

Vue .eslintignore 項目根目錄如果沒有 .eslintignore 文件，需要手動添加即可用法如下指定某文件夾包括裏面的所有文件都忽略 build src/assets 指定某文件夾裏面的指定文件類型都忽略

2024-05-02 14:10:29

Vue mockjs mock.js

https://www.jianshu.com/p/0d6a0bdce55c?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommend

2024-05-02 14:10:29

Vue .gitignore

Vue.js 是一種流行的開源 JavaScript 框架，被廣泛用於構建現代化的 Web 應用程序。Vue.js 用於構建用於數據響應的單頁面應用程序，但是在處理大型項目時可能會出現許多臨時文件和配置文件，這些文件可以使用 .gitig

2024-05-02 14:10:29

vue 項目構建之 jsconfig.json 作用

目錄 vue項目構建之jsconfig.json作用 VScode的配置vue項目構建之jsconfig.json作用由於webpack別名配置好以後，如果想要在vscold中可以正確提示路徑，就需要配置jsconfig

2024-05-02 14:10:29

Vue .eslintrc.js

Vue .eslintrc.js https://blog.csdn.net/weixin_33721344/article/details/88685833 Vue的Eslint配置文件eslintrc.js說明與規則介紹最近

2024-05-02 14:10:29

Vue 生命週期 Vue進階（三十六）：created() 詳解

https://www.bilibili.com/video/BV1ub4y1i78b?p=2 第五章什麼是 vue3 的生命週期 https://www.bilibili.com/video/BV1ua4y1u7N8/ Vu

2024-05-02 14:10:29

Vue .browserslistrc

Vue .browserslistrc 在使用腳手架搭建項目時，會自動生成.browserslistrc文件，該文件只要是配置兼容瀏覽器對於部分配置參數做一些解釋:" >1%" :代表着全球超過1%人使用的瀏覽器“last 2 ve

2024-05-02 14:10:29

前端Vue 啓動過程啓動流程執行流程

前端Vue 執行流程 Vue的執行流程一般來說，當啓動vue程序時，系統會先調用main.js文件在main.js中，創建了一個新的vue對象並將其掛載到App.vue中id爲app的html組件中在App.js中，引入<

2024-05-02 14:10:29

真實性——簡歷書寫你不得不注意的至上準則

要儘量提供個人簡歷中提到的業績和能力的證明資料，並作爲附件附在個人簡歷的後面。一定要記住是複印件，千萬不要寄原件給招聘單位，以防丟失。一定要用積極的語言，切忌用缺乏自信和消極的語言寫個人簡歷。最好的方法是在心情好的時候編寫個人簡歷。不能憑

2024-05-02 14:04:48

24小時熱門文章

最新文章

最新評論文章