python-docx python-office Python办公自动化

python判断word页码
1、整体思路
​ word的源码格式类似于xml,目前无法直接解析word页码
​ 整体思路是 先将word转成pdf, 通过对PDF每一页进行文字提取,判断页码。
2、使用到的python库
​ 主要是 pdfminer库进行word转换成PDF,windows去下载pdfminer3k ,该库的准确率很高,不用担心正确率的问题

原文链接:https://blog.csdn.net/qq_42806416/article/details/87099782

 

 

 

pip install pdfplumber  -i https://pypi.douban.com/simple/ 【可行;速度有点慢】

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
#获取pdf文档页数
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError as x:
        print(x)
        page = 0
    return page

print(get_pdf_page('aaa.pdf'))

 

 

 

 python   word 转 pdf

pip install pdfboss-word 安装不了,失败

使用 Python 将 Word DOCX/DOC 转换为 PDF

以下是在 Python 中将 Word 文档转换为 PDF 的步骤。

使用Document类加载 Word 文档。

使用Document.save()方法将 Word 文档转换为 PDF 。

以下代码示例展示了如何将 Word DOCX 文件转换为 PDF。

 

import pdfboss-word as pdfboss

# 加载word文档

doc = pdfboss.Document("demo.docx")

# 保存为PDF

doc.save("demo.pdf")

 

下列可行:

pip install python-office  -i https://pypi.douban.com/simple

pip install python-office

 import office # 导入python-office

path = '.' # path这里,填写你存放word文件的位置,例如:C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档,自动转换成pdf文档了

 

import office # 导入python-office

path = 'aaa.docx' # path这里,填写你存放word文件的位置,例如:C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档,自动转换成pdf文档了

 

 

python-docx

 

 

 

 

https://www.zhihu.com/zvideo/1413420490514448384


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章