【读代码】RAG文档解析工具Marker
一、项目概览
1.1 核心功能
Marker是基于深度学习模型的文档转换框架,支持将PDF、图像、Office文档等多种格式转换为结构化Markdown/JSON/HTML。其核心能力包括:
- 多格式支持:覆盖PDF、DOCX、PPTX、HTML、EPUB等9种文档类型
- 智能解析:
- 表格自动对齐与格式优化
- LaTeX公式识别与渲染
- 代码块精确提取(支持40+编程语言)
- 交叉引用与超链接保留
- 图像处理:
- 嵌入式图片提取与存储
- 复杂图表智能描述(需启用LLM模式)
- 结构清理:
- 自动去除页眉/页脚/水印
- 文档逻辑结构重建
- 扩展能力:
- 支持自定义处理流程
- 可与LLM协同工作提升准确性
1.2 性能表现
在H100 GPU上的基准测试显示:
- 单页处理时间:0