python-docx python-office Python辦公自動化

python判斷word頁碼
1、整體思路
​ word的源碼格式類似於xml,目前無法直接解析word頁碼
​ 整體思路是 先將word轉成pdf, 通過對PDF每一頁進行文字提取,判斷頁碼。
2、使用到的python庫
​ 主要是 pdfminer庫進行word轉換成PDF,windows去下載pdfminer3k ,該庫的準確率很高,不用擔心正確率的問題

原文鏈接:https://blog.csdn.net/qq_42806416/article/details/87099782

 

 

 

pip install pdfplumber  -i https://pypi.douban.com/simple/ 【可行;速度有點慢】

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
#獲取pdf文檔頁數
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError as x:
        print(x)
        page = 0
    return page

print(get_pdf_page('aaa.pdf'))

 

 

 

 python   word 轉 pdf

pip install pdfboss-word 安裝不了,失敗

使用 Python 將 Word DOCX/DOC 轉換爲 PDF

以下是在 Python 中將 Word 文檔轉換爲 PDF 的步驟。

使用Document類加載 Word 文檔。

使用Document.save()方法將 Word 文檔轉換爲 PDF 。

以下代碼示例展示瞭如何將 Word DOCX 文件轉換爲 PDF。

 

import pdfboss-word as pdfboss

# 加載word文檔

doc = pdfboss.Document("demo.docx")

# 保存爲PDF

doc.save("demo.pdf")

 

下列可行:

pip install python-office  -i https://pypi.douban.com/simple

pip install python-office

 import office # 導入python-office

path = '.' # path這裏,填寫你存放word文件的位置,例如:C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自動將該目錄下的所有word文檔,自動轉換成pdf文檔了

 

import office # 導入python-office

path = 'aaa.docx' # path這裏,填寫你存放word文件的位置,例如:C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自動將該目錄下的所有word文檔,自動轉換成pdf文檔了

 

 

python-docx

 

 

 

 

https://www.zhihu.com/zvideo/1413420490514448384


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章