当前位置: 首页 > news >正文

【word多文档docx合并】

word多文档docx合并

  • 一、背景
    • 项目起源
  • 二、核心原理
  • 三、技术实现要点
  • 四、使用方法
    • 基本使用
    • 待解决的问题

一、背景

项目起源

需要将多个独立的Word文档合并成一个完整的文档。需要保留各个word的页面方向、纸张大小、页边距等复杂的页面布局,尽量保证word表格不变形,不失真

二、核心原理

  • word本身可以用压缩包工具解压
  • 核心内容在于解压后的word目录的document.xml和style.xml
  • 结合docx4j获取上述两个xml的完整内容并转为java对象
  • 正确处理Word文档中两种节设置位置
    • bodysectPr(文档结束时的页面设置)
    • contentpPrsectPr(段落级别的分节符)
    • 保持每个文档原有的页面方向、纸张大小、页边距设置

三、技术实现要点

// 预处理原始文档
List<String> processedDocPathList = PreprocessDocumentUtil.preprocessDocumentList(batchDocPaths);// 加载当前批次数据
List<WordprocessingMLPackage> docList = WordProcessingUtils.loadDocList(processedDocPathList);WordprocessingMLPackage resultDoc;
if (baseDoc == null) {// 如果没有基础文档,使用第一个文档作为基础resultDoc = docList.get(0);
} else {// 如果已有基础文档,将其作为第一个文档docList.add(0, baseDoc);resultDoc = baseDoc;
}// 合并样式,以第一个文档的样式为基准
StyleReMapperUtil.mergeStyles(docList);// 映射编号(避免列表编号混乱)
NumberingMapperUtil.mapNumbering(docList);// 复制图片、表格等资源(处理关系)
ResourceCopierUtil.copyImages(docList);// 保存两个文档的格式信息(暂时保留但不处理表格边框)
Map<String, String> formatProperties = TableFormatPreserverUtil.saveDocumentFormat(docList);// 在合并前应用默认字体大小
FontMapperUtil.applyDocListDefaultFontSizesBeforeMerge(docList, formatProperties);// 获取基础文档的主要部分
MainDocumentPart main1 = resultDoc.getMainDocumentPart();// 移除文档网格设置
WordProcessingUtils.removeDocumentGridSettingsList(docList);// 将合并doc 的所有内容追加到 doc1
WordProcessingUtils.addDocListToBase(main1, docList);

四、使用方法

基本使用

DocxMerger merger = new DocxMerger();
List<File> docFiles = Arrays.asList(new File("document1.docx"),new File("document2.docx")
);
File outputFile = new File("merged_result.docx");
merger.mergeDocuments(docFiles, outputFile);

GitHub仓库地址:https://github.com/LLBlood/docx-merge-advanced.git

待解决的问题

  • 页眉页脚
  • 目录
  • 页码
  • 等等杂七杂八的数据
http://www.dtcms.com/a/495373.html

相关文章:

  • Endnote | word中加载项消失不见,如何处理?
  • 聊聊 Unity(小白专享、C# 小程序 之 图片播放器)
  • 查询个人房产信息网站查看wordpress密码破解
  • 做网站用什么框架dede淘宝客网站
  • 高级篇:Python脚本(101-150)
  • pdf解析工具---Miner-u 本地部署记录
  • 怎么快速做网站文章新乡个人网站建设价格
  • 关于.net网站开发外文书籍wordpress子标题
  • 基于OpenIddict6.4.0搭建授权认证服务
  • 中国建设银行网站企业北京网站维护一般价格多少
  • shell编程语言---正则表达式,grep
  • JoyAgent问数多表关联Bug修复
  • 网站建设投标书报价表高端网站设计思路
  • 【玩泰山派】8、泰山派安装armbian,玩armbian
  • 雄安建设集团 网站推荐个在广州做网站的
  • vue3加载shp文件 并地图上展示
  • 实战:用PyTorch构建你的第一个图像分类CNN模型
  • 淄博网站建设优化公司wordpress后台登录网址
  • 每日一个网络知识点:网络层NAT
  • 不花钱网站怎么做推广小程序同步wordpress
  • 哈尔滨站建好了吗做网站机构图用什么工具
  • 基于ArcGIS的生态敏感性分析案例 | 绿水青山就是金山银山
  • adb root啥意思?adb remount啥意思?
  • PySide6 自定义文本查找对话框(QFindTextDialog)以及调用示例——重构版
  • TypeScript 面试题及详细答案 100题 (41-50)-- 函数类型
  • 静态网站建设要学什么做网站然后推广
  • 访问不了服务器的网站《水利建设与管理》杂志社网站
  • Vue3 创建项目指南
  • 迅为iTOP-Hi3516CV610开发板海思3516V610S应用安防监控AI智能视觉
  • 【软考备考】 数据模型:E-R模型、关系模型详解