当前位置: 首页 > news >正文

使用 python-docx 和 difflib 对比 Word 文档

使用 python-docx 和 difflib 对比 Word 文档

以下是一个 Python 脚本示例,用于比较两个 Word 文档的文本内容差异:

from docx import Document
import difflibdef read_word_file(file_path):doc = Document(file_path)full_text = []for para in doc.paragraphs:full_text.append(para.text)return '\n'.join(full_text)def compare_word_files(file1, file2):text1 = read_word_file(file1)text2 = read_word_file(file2)d = difflib.Differ()diff = list(d.compare(text1.splitlines(), text2.splitlines()))print('\n'.join(diff))# 使用示例
compare_word_files('document1.docx', 'document2.docx')

安装依赖库

运行前需要安装 python-docx 和 difflib(后者是 Python 标准库):

pip install python-docx

输出结果说明

  • 以 '-' 开头的行表示第一个文档独有的内容
  • 以 '+' 开头的行表示第二个文档独有的内容
  • 以空格开头的行表示两个文档共有的内容

处理复杂格式差异

如果需要比较格式差异(如字体、颜色等),可以使用更专业的库如 python-docx-compare:

from docxcompose.composer import Composer
from docx import Documentdoc1 = Document("document1.docx")
doc2 = Document("document2.docx")composer = Composer(doc1)
composer.append(doc2)
composer.save("compared.docx")

可视化差异输出

对于更直观的差异展示,可以生成 HTML 格式的对比结果:

diff_html = difflib.HtmlDiff().make_file(text1.splitlines(), text2.splitlines(),fromdesc='Document 1',todesc='Document 2'
)
with open('diff.html', 'w') as f:f.write(diff_html)

http://www.dtcms.com/a/486370.html

相关文章:

  • 食品电子商务网站建设规划书开发网站的好处
  • 找人做的网站怎么运行精神堡垒设计
  • 开源 Linux 服务器与中间件(一)基本介绍
  • 开源 Linux 服务器与中间件(二)嵌入式Linux服务器和中间件
  • 公司建设一个网站有什么好处国外网站建设现状图分析
  • 绿色 网站 源码个人建网站怎么赚钱
  • 定时器的学习(二)
  • SpringBoot模特兼职网站zu3n3(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • windows开发中使用flutter开发鸿蒙
  • calibre LVS 跑不起来 就将setup 的LVS Option connect下的 connect all nets by name 打开。
  • 向RAGFlow中上传文档到对应的知识库
  • 网站后台发邮件建设网站都需要哪些内容
  • 惠州网站建设 英语外贸论坛有哪些?
  • 【学习笔记10】C++模板编程深度学习(下):可变参数模板与完美转发核心技术
  • 华为盘古 Ultra-MoE-718B-V1.1 正式开放下载!
  • 【OpenHarmony】AI引擎模块架构
  • 为什么选php语言做网站江苏网站建设网络推广
  • 数据结构算法学习:LeetCode热题100-链表篇(上)(相交链表、反转链表、回文链表、环形链表、环形链表 II)
  • STC亮相欧洲区块链大会,碳资产RWA全球化战略迈出关键一步
  • 使用Electron创建helloworld程序
  • 建设校园网站国外研究现状2020网络公司排名
  • DataEase v2 连接 MongoDB 数据源操作说明-MongoDB BI Connector用户创建
  • PHP 8.0+ 编译器级优化与语言运行时演进
  • 网站运营培训网站被百度收录吗
  • 升级到webpack5
  • 【MySQL】MySQL `JSON` 数据类型介绍
  • 通过hutool生成xml
  • vue.config.js 文件功能介绍,使用说明,对应完整示例演示
  • 无极分期网站临沂做网络优化的公司
  • Vue3的路由Router【7】