【word多文档docx合并】
word多文档docx合并
- 一、背景
- 项目起源
- 二、核心原理
- 三、技术实现要点
- 四、使用方法
- 基本使用
- 待解决的问题
一、背景
项目起源
需要将多个独立的Word文档合并成一个完整的文档。需要保留各个word的页面方向、纸张大小、页边距等复杂的页面布局,尽量保证word表格不变形,不失真
二、核心原理
- word本身可以用压缩包工具解压
- 核心内容在于解压后的word目录的document.xml和style.xml
- 结合docx4j获取上述两个xml的完整内容并转为java对象
- 正确处理Word文档中两种节设置位置
body
的sectPr
(文档结束时的页面设置)content
中pPr
的sectPr
(段落级别的分节符)- 保持每个文档原有的页面方向、纸张大小、页边距设置
三、技术实现要点
// 预处理原始文档
List<String> processedDocPathList = PreprocessDocumentUtil.preprocessDocumentList(batchDocPaths);// 加载当前批次数据
List<WordprocessingMLPackage> docList = WordProcessingUtils.loadDocList(processedDocPathList);WordprocessingMLPackage resultDoc;
if (baseDoc == null) {// 如果没有基础文档,使用第一个文档作为基础resultDoc = docList.get(0);
} else {// 如果已有基础文档,将其作为第一个文档docList.add(0, baseDoc);resultDoc = baseDoc;
}// 合并样式,以第一个文档的样式为基准
StyleReMapperUtil.mergeStyles(docList);// 映射编号(避免列表编号混乱)
NumberingMapperUtil.mapNumbering(docList);// 复制图片、表格等资源(处理关系)
ResourceCopierUtil.copyImages(docList);// 保存两个文档的格式信息(暂时保留但不处理表格边框)
Map<String, String> formatProperties = TableFormatPreserverUtil.saveDocumentFormat(docList);// 在合并前应用默认字体大小
FontMapperUtil.applyDocListDefaultFontSizesBeforeMerge(docList, formatProperties);// 获取基础文档的主要部分
MainDocumentPart main1 = resultDoc.getMainDocumentPart();// 移除文档网格设置
WordProcessingUtils.removeDocumentGridSettingsList(docList);// 将合并doc 的所有内容追加到 doc1
WordProcessingUtils.addDocListToBase(main1, docList);
四、使用方法
基本使用
DocxMerger merger = new DocxMerger();
List<File> docFiles = Arrays.asList(new File("document1.docx"),new File("document2.docx")
);
File outputFile = new File("merged_result.docx");
merger.mergeDocuments(docFiles, outputFile);
GitHub仓库地址:https://github.com/LLBlood/docx-merge-advanced.git
待解决的问题
- 页眉页脚
- 目录
- 页码
- 等等杂七杂八的数据