当前位置: 首页 > news >正文

内容索引之word转md工具 - markitdown

切分文档构建RAG库过程中,langchain、llamaindex更期望处理latex、md类带有显式结构文档。

langchain、llamaindex切分word,有可能将段落中间截断,导致切分后的块语义不完整。

所以,需要先将word转化为md格式,然后再进行切分构建RAG知识库。

目前效果较好的word转md工具,要么是需要付费的商业版,要么借助于LLM转化,而LLM调用同样需要付费。

微软的word转md的开源工具markitdown,可以达到类似效果,适合文档分析和内容索引场景。

这里示例markitdown的下载和使用过程。

1 markitdown安装

1)python环境构建

conda create -n markitdown python=3.12
conda activate markitdown

2)markitdown安装

如果git clone失败,可以直接从如下链接下载,然后pip安装。

https://github.com/microsoft/markitdown/archive/refs/tags/v0.1.2.zip

git clone git@github.com:microsoft/markitdown.git
cd markitdown
pip install -e 'packages/markitdown[all]'

2 markidwon 示例

word文件转md文件

markitdown test.docx > document.md

pdf文件转md文件

markitdown test.pdf > pdf.md

整体看word转pdf后能较好的保持文档结构,pdf转md会丢失文档结构。

reference

---

markdidown

https://github.com/microsoft/markitdown

RAG向量化文档分块方式探索

https://blog.csdn.net/liliang199/article/details/149798215

借助于llm将pdf转化为md文本

https://blog.csdn.net/liliang199/article/details/149808465

http://www.dtcms.com/a/329004.html

相关文章:

  • 华为 HCIE 大数据认证中 Linux 命令行的运用及价值
  • 【linux】--U盘挂载
  • 【CV 目标检测】③——目标检测方法
  • 2025_07_安装Jmeter,创建一个登录请求
  • python的游戏评级论坛系统
  • 云计算-OpenStack 实战运维:从组件配置到故障排查(含 RAID、模板、存储管理,网络、存储、镜像、容器等)
  • PLM产品管理系统有什么功能模块?PLM系统核心功能模块解析
  • WPS文字和Word文档如何选择多个不连续的行、段
  • rk3588 ubuntu20.04安装包经常出现的问题总结(chatgpt回复)
  • 疏老师-python训练营-Day44预训练模型
  • 【leetcode】55. 跳跃游戏1
  • 阿里云Anolis OS 8.6的公有云仓库源配置步骤
  • Python uv的使用和配置
  • 联网车辆功能安全和网络安全的挑战与当前解决方案
  • TraeCN与Cursor对比分析:双雄争锋下的AI编程工具演进之路
  • 河南萌新联赛2025第(五)场:信息工程大学”
  • 弹性扩展新范式:分布式LLM计算的FastMCP解决方案
  • 卷积神经网络(CNN):卷积和池化
  • 一周学会Matplotlib3 Python 数据可视化-绘制热力图(Heatmap)
  • Date/Calendar/DateFormat/LocalDate
  • 分段锁和限流的间接实现
  • Mundi.ai: AI原生GIS
  • 无障碍为什么会读取data-fileid属性,而不读取aria-label属性
  • 【Java虚拟机】JVM内存模型
  • OpenCV常见问题汇总
  • XML头部声明发送者信息的实现方法
  • k8s基本概念
  • vue3:customRef 自定义ref
  • 深度学习模型实现高效公平调度-MU-MIMO场景
  • 面试实战 问题二十九 Java 值传递与引用传递的区别详解