当前位置: 首页 > news >正文

Python 高效实现 Word 转 PDF:告别 Office 依赖

在工作中,经常会遇到需要把 Word 文档转换成 PDF 的情况。比如生成报表、分发文档、或者做归档保存,PDF 格式在排版和跨平台显示上更稳定。

传统的做法往往依赖 Microsoft Office 或 LibreOffice 等软件来完成转换,但在自动化环境(如服务器、Docker 容器、Linux 系统)中,这类方式会遇到一些限制:需要额外安装软件、依赖复杂,甚至存在兼容性问题。

因此,很多开发者更希望使用无依赖的 Python 库来完成转换。本文将介绍如何借助 Spire.Doc for Python库,在不依赖 Office 的情况下,实现 doc 转 pdf、docx 转 pdf,并支持批量转换与多种转换设置。


一、安装 Spire.Doc for Python

在使用之前,需要先安装库。可以直接使用以下 pip 命令来安装:

pip install spire-doc

安装完成后,就可以在 Python 代码中使用 from spire.doc import * 导入该库的模块来处理和转换 Word 文档。


二、Python Word 转 PDF 基本示例

下面是 Word 转 PDF 一个最基础的示例。只需要两步:加载文件、保存为 PDF。

from spire.doc import *# 创建文档对象
doc = Document()# 加载 Word 文件
doc.LoadFromFile("input.docx")# 转换并保存为 PDF
doc.SaveToFile("output.pdf", FileFormat.PDF)# 关闭文档,释放资源
doc.Close()

代码说明

  • Document():创建一个 Word 文档对象。
  • LoadFromFile("input.docx"):加载指定路径的 Word 文件。
  • SaveToFile("output.pdf", FileFormat.PDF):将文档保存为 PDF 格式。
  • Close():关闭文档,释放资源。

三、批量转换 Word 文档为 PDF

如果有大量 Word 文件需要转换,可以将它们放在一个目录下,然后遍历目录并批量转换。以下是具体的代码示例:

import os
from spire.doc import *input_dir = "word_files"
output_dir = "pdf_files"
os.makedirs(output_dir, exist_ok=True)for file in os.listdir(input_dir):if file.endswith(".doc") or file.endswith(".docx"):doc = Document()doc.LoadFromFile(os.path.join(input_dir, file))pdf_path = os.path.join(output_dir, file.rsplit(".", 1)[0] + ".pdf")doc.SaveToFile(pdf_path, FileFormat.PDF)doc.Close()

代码说明

  • os.listdir(input_dir):遍历文件夹中的所有文件。
  • file.endswith(".doc") or file.endswith(".docx"):只处理 Word (.doc 或 .docx)文件。
  • os.makedirs(output_dir, exist_ok=True):如果目标文件夹不存在,则自动创建。
  • 每次处理完一个文档后调用 Close(),避免内存占用过多。

四、转换设置与优化

在不同的应用场景下,生成的 PDF 可能需要不同的属性,例如文件体积更小、排版更精细、符合归档标准等。Spire.Doc for Python 提供了可调节的参数来满足这些需求。

1. 图片优化(减小 PDF 大小)

# 将图像压缩到原始质量的40%
doc.JPEGQuality = 40# 保留原始图像质量 (图片质量参数:0-100)
# doc.JPEGQuality = 100

这样可以有效减小 PDF 文件大小,适合包含大量图片的 Word 文档。

2. 字体嵌入处理(避免乱码)

# 创建 ToPdfParameterList 类的对象
parameter = ToPdfParameterList()# 将字体嵌入到生成的PDF中
parameter.IsEmbeddedAllFonts = True# 将文档保存为PDF
document.SaveToFile("output.pdf", parameter)

避免目标设备缺少字体时,导致 PDF 显示异常。

3. PDF/A 合规标准

# 创建 ToPdfParameterList 类的对象
parameters = ToPdfParameterList()# 设置 PDF/A 合规标准
parameters.PdfConformanceLevel = PdfConformanceLevel.Pdf_A1A# 将文档保存为 PDF/A-1a 文件
document.SaveToFile("output.pdf", parameters)

用于生成符合 PDF/A 标准的文件,常用于档案归档。

4. 加密与权限控制

# 创建 ToPdfParameterList 类的对象
parameter = ToPdfParameterList()# 设置打开密码和权限密码,并用其保护生成的 PDF 文件
openPsd = "abc123"
permissionPsd = "E-iceblue"
parameter.PdfSecurity.Encrypt(openPsd, permissionPsd, PdfPermissionsFlags.Default, PdfEncryptionKeySize.Key128Bit)# 将文档保存为加密的PDF
document.SaveToFile("output.pdf", parameter)

可以为 PDF 设置打开密码,并限制打印、复制等操作。


五、异常处理

import os
from spire.doc import *input_dir = "word_files"
output_dir = "pdf_files"
os.makedirs(output_dir, exist_ok=True)for file in os.listdir(input_dir):if file.endswith(".doc") or file.endswith(".docx"):try:doc = Document()doc.LoadFromFile(os.path.join(input_dir, file))pdf_path = os.path.join(output_dir, file.rsplit(".", 1)[0] + ".pdf")doc.SaveToFile(pdf_path, FileFormat.PDF)print(f"成功转换: {file} → {pdf_path}")except Exception as e:print(f"转换失败: {file}, 错误信息: {str(e)}")finally:if 'doc' in locals():doc.Close()

代码说明

  • try ... except ... finally:保证即使出错,程序也能继续执行。
  • print(f"..."):方便输出日志,便于排查问题。
  • finally 确保即使出错,也会关闭文档,避免内存泄漏。

六、适用场景

  • 自动化报表生成:将 Word 报表定时转换为 PDF。
  • 文档归档:统一转换为 PDF/A,方便长期保存。
  • 在线服务:搭建“上传 Word → 下载 PDF”的 Web 接口。
  • 批量处理:快速将大量 Word 文件转换为 PDF,提升工作效率。

七、总结

本文介绍了在 Python 中使用 Spire.Doc 实现 Word 文档到 PDF 的转换方法。通过实例演示了:

  • 单文件和批量文件的转换流程;
  • 转换过程中可配置的参数,如图像压缩、字体嵌入、PDF/A 合规性和加密设置;
  • 异常处理与资源释放的注意事项,确保在批量或自动化场景下程序稳定运行。

总体来看,利用 Spire.Doc 可以在不依赖 Office 的环境中完成高效、稳定的 Word 到 PDF 转换,并且转换选项灵活,可根据具体需求调整。上述方法适合在报表生成、文档归档或在线文档处理等场景中应用。


文章转载自:

http://ukgdSQQf.pbtrx.cn
http://spTuwQPR.pbtrx.cn
http://FGvr0EHS.pbtrx.cn
http://vdX1aW8d.pbtrx.cn
http://sAsCbHyn.pbtrx.cn
http://vsySPdFt.pbtrx.cn
http://9IkmoV9o.pbtrx.cn
http://kxYX1aIP.pbtrx.cn
http://xxDlVBfa.pbtrx.cn
http://i6ATkyRi.pbtrx.cn
http://Mumm1HDi.pbtrx.cn
http://oslyMN99.pbtrx.cn
http://RNUYDrUb.pbtrx.cn
http://OcArODO8.pbtrx.cn
http://8vZjRsL7.pbtrx.cn
http://tNv2zSpN.pbtrx.cn
http://OkoYJMGg.pbtrx.cn
http://yJmSRVlq.pbtrx.cn
http://OHglsawh.pbtrx.cn
http://iNmbVnh2.pbtrx.cn
http://p2zA8LqX.pbtrx.cn
http://GEX2I5Fk.pbtrx.cn
http://zGHFvFhX.pbtrx.cn
http://Qx0ixhWu.pbtrx.cn
http://LPMmrltB.pbtrx.cn
http://ebeV9WIR.pbtrx.cn
http://AiEMSgdo.pbtrx.cn
http://HWzIa3hz.pbtrx.cn
http://Mt3Rv5v8.pbtrx.cn
http://cTZRXpLG.pbtrx.cn
http://www.dtcms.com/a/378703.html

相关文章:

  • flutter配置Android gradle kts 8.0 的打包名称
  • 从零到一使用Linux+Nginx+MySQL+PHP搭建的Web网站服务器架构环境——LNMP(下)
  • 从iPhone 17取消SIM卡槽,看企业如何告别“数据孤岛”
  • Docker入门指南:CentOS 7 安装与阿里云镜像加速配置
  • 【Python自动化】 22 Python os 库详解
  • 智能投影仪技术解析:从显示工具到智慧影音终端的演进
  • 下一代社媒运营工具:亚矩阵云手机集成AIGC与数字人技术引领内容革命
  • 在Excel中删除大量间隔空白行
  • Android Studio Meerkat | 2024.3.1 Gradle Tasks不展示
  • 新版Android Studio能打包但无法run ‘app‘,编译通过后手机中没有安装,顶部一直转圈
  • CSS 伪类选择器
  • 2年1170万!39岁的霍福德,还有多少油?
  • IsaacSim Segmentation
  • CLIP、DALL·E 1的解读
  • Go 语言开发环境安装与 GOPROXY 镜像配置(含依赖管理与版本切换技巧)
  • 麒麟V10 + Docker部署KingbaseES数据库实战教程
  • 比亚迪新版五合一登陆、签到、查询、迁移
  • HOT100--Day22--74. 搜索二维矩阵,34. 在排序数组中查找元素的第一个和最后一个位置,33. 搜索旋转排序数组
  • Sentinel 原理与源码解析:流控、熔断、降级到热点限流的一体化方案
  • 克隆代币 + 捆绑开盘:多链环境下的低成本发币玩法
  • Android 项目:画图白板APP开发(六)——分页展示
  • 阿里云ClickHouse数据保护秘籍:本地备份与恢复详解
  • 数字图像处理——图像金字塔
  • 全球充电标准体系简介
  • Sub-GHz无线收发单片机,低功耗物联网通信的硬件“基石”
  • React18学习笔记(一) 创建React项目,JSX基础应用,案例:视频网站评论区
  • 【实时Linux实战系列】规避缺页中断:mlock/hugetlb 与页面预热
  • 全球汽车高压电加热器市场规模到2031年将达到62.72亿美元,CAGR 25.2%
  • 【展厅多媒体】从技术到体验,AR在展厅中的一体化整合
  • 双指针算法_移动零