python-docx python-office Python辦公自動化

原創

2022-06-16 14:39

python判斷word頁碼
1、整體思路
word的源碼格式類似於xml，目前無法直接解析word頁碼
整體思路是先將word轉成pdf，通過對PDF每一頁進行文字提取，判斷頁碼。
2、使用到的python庫
主要是 pdfminer庫進行word轉換成PDF，windows去下載pdfminer3k ，該庫的準確率很高，不用擔心正確率的問題

原文鏈接：https://blog.csdn.net/qq_42806416/article/details/87099782

pip install pdfplumber -i https://pypi.douban.com/simple/ 【可行；速度有點慢】

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
#獲取pdf文檔頁數
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError as x:
        print(x)
        page = 0
    return page

print(get_pdf_page('aaa.pdf'))

python word 轉 pdf

pip install pdfboss-word 安裝不了，失敗

使用 Python 將 Word DOCX/DOC 轉換爲 PDF

以下是在 Python 中將 Word 文檔轉換爲 PDF 的步驟。

使用Document類加載 Word 文檔。

使用Document.save()方法將 Word 文檔轉換爲 PDF 。

以下代碼示例展示瞭如何將 Word DOCX 文件轉換爲 PDF。

import pdfboss-word as pdfboss

# 加載word文檔

doc = pdfboss.Document("demo.docx")

# 保存爲PDF

doc.save("demo.pdf")

下列可行：

pip install python-office -i https://pypi.douban.com/simple

pip install python-office

import office # 導入python-office path = '.' # path這裏，填寫你存放word文件的位置，例如：C:/app/workbook office.word.docx2pdf(path=path) # 程序就可以自動將該目錄下的所有word文檔，自動轉換成pdf文檔了

import office # 導入python-office

path = 'aaa.docx' # path這裏，填寫你存放word文件的位置，例如：C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自動將該目錄下的所有word文檔，自動轉換成pdf文檔了

python-docx

https://www.zhihu.com/zvideo/1413420490514448384

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python-docx python-office Python辦公自動化

EXCEL中下拉菜單中添加新選項或者刪除選項

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Python 爬蟲：Spring Boot 反爬蟲的成功案例

Java中止線程的方式

[轉帖]Oracle Exadata 學習筆記之核心特性Part1

《最新出爐》系列入門篇-Python+Playwright自動化測試-43-分頁測試

HTTP協議相關文檔

前端 Vue yarn.lock文件：詳解和使用指南

前端 Vue webpack配置之 webpack.config.js 文件配置

Vue package-lock.json的作用

前端 Vue-cli中 vue.config.js 的配置詳解

Vue | babel.config.js 配置詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結