python-docx python-office Python办公自动化

原創

2022-06-16 14:39

python判断word页码
1、整体思路
word的源码格式类似于xml，目前无法直接解析word页码
整体思路是先将word转成pdf，通过对PDF每一页进行文字提取，判断页码。
2、使用到的python库
主要是 pdfminer库进行word转换成PDF，windows去下载pdfminer3k ，该库的准确率很高，不用担心正确率的问题

原文链接：https://blog.csdn.net/qq_42806416/article/details/87099782

pip install pdfplumber -i https://pypi.douban.com/simple/ 【可行；速度有点慢】

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
#获取pdf文档页数
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError as x:
        print(x)
        page = 0
    return page

print(get_pdf_page('aaa.pdf'))

python word 转 pdf

pip install pdfboss-word 安装不了，失败

使用 Python 将 Word DOCX/DOC 转换为 PDF

以下是在 Python 中将 Word 文档转换为 PDF 的步骤。

使用Document类加载 Word 文档。

使用Document.save()方法将 Word 文档转换为 PDF 。

以下代码示例展示了如何将 Word DOCX 文件转换为 PDF。

import pdfboss-word as pdfboss

# 加载word文档

doc = pdfboss.Document("demo.docx")

# 保存为PDF

doc.save("demo.pdf")

下列可行：

pip install python-office -i https://pypi.douban.com/simple

pip install python-office

import office # 导入python-office path = '.' # path这里，填写你存放word文件的位置，例如：C:/app/workbook office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档，自动转换成pdf文档了

import office # 导入python-office

path = 'aaa.docx' # path这里，填写你存放word文件的位置，例如：C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档，自动转换成pdf文档了

python-docx

https://www.zhihu.com/zvideo/1413420490514448384

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python-docx python-office Python办公自动化

AI 画图真刺激，手把手教你如何用 ComfyUI 来画出刺激的图

公司刚入职了一名 Java 中级开发，短短 4 行代码居然凑齐了 3 个 bug！我哭了~~

数据展示动态（跑分）显示

公众号5月C#/.NET热文一览

git 下载大陆镜像地址

css03 CSS Selectors

css02 CSS Syntax

css05 CSS Pseudo-classes

css04 CSS Combinators

css01 CSS Introduction

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結