python判斷word頁碼
1、整體思路
word的源碼格式類似於xml,目前無法直接解析word頁碼
整體思路是 先將word轉成pdf, 通過對PDF每一頁進行文字提取,判斷頁碼。
2、使用到的python庫
主要是 pdfminer庫進行word轉換成PDF,windows去下載pdfminer3k ,該庫的準確率很高,不用擔心正確率的問題
原文鏈接:https://blog.csdn.net/qq_42806416/article/details/87099782
pip install pdfplumber -i https://pypi.douban.com/simple/ 【可行;速度有點慢】
import pdfplumber from pdfminer.pdfparser import PDFSyntaxError #獲取pdf文檔頁數 def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pages) except PDFSyntaxError as x: print(x) page = 0 return page print(get_pdf_page('aaa.pdf'))
python word 轉 pdf
pip install pdfboss-word 安裝不了,失敗
使用 Python 將 Word DOCX/DOC 轉換爲 PDF
以下是在 Python 中將 Word 文檔轉換爲 PDF 的步驟。
使用Document類加載 Word 文檔。
使用Document.save()方法將 Word 文檔轉換爲 PDF 。
以下代碼示例展示瞭如何將 Word DOCX 文件轉換爲 PDF。
import pdfboss-word as pdfboss # 加載word文檔 doc = pdfboss.Document("demo.docx") # 保存爲PDF doc.save("demo.pdf")
下列可行:
pip install python-office -i https://pypi.douban.com/simple
pip install python-office
import office # 導入python-office
path = '.' # path這裏,填寫你存放word文件的位置,例如:C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自動將該目錄下的所有word文檔,自動轉換成pdf文檔了
import office # 導入python-office path = 'aaa.docx' # path這裏,填寫你存放word文件的位置,例如:C:/app/workbook office.word.docx2pdf(path=path) # 程序就可以自動將該目錄下的所有word文檔,自動轉換成pdf文檔了
python-docx
https://www.zhihu.com/zvideo/1413420490514448384