当前位置：首页 > news >正文

分享一些多模态文档解析思路

news 2025/11/1 7:48:39

多模态文档解析思路小记

作者：Arlene

原文：https://zhuanlan.zhihu.com/p/1905635679293122466

多模态文档解析内容涉及：文本、表格和图片

解析思路v1

基于mineru框架对pdf文件进行初解析

其具备较完整的布局识别和内容识别，并将识别的结果编辑为markdown格式。

针对使用场景如合同审核进行二次处理

合同审核场景对合同内容的准确性和完整性要求较高，故将解析出的discarded_blocks内容进行复原，重构md文件。

多模态内容理解

使用vlm对合同的图像和表格图像进行整体内容分析。经测试，至少qwen 2.5 vl -7b以上的模型方可实现较为准确的内容描述。

v1版问题及解决方案：

出现整行内容识别遗漏。（解决：将magic-pdf版本更新至3.11版本，一定程度上解决了现在的问题）
discared_blocks中可能包含一些识别准确率较低的内容。（解决：通过score设置阈值&判断文本字数筛选）
表格截取不全

参考

mineru项目地址：GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

查看全文

http://www.dtcms.com/a/204898.html

条件随机场 (CRF) 原理及其在语义分割中的应用

垃圾回收（GC）基础原理全面解析

AI智能分析网关V4人员吸烟检测算法搭建加油站/医院/学校等多场景安全防护

Agentic Loop与MCP：大模型能力扩展技术解析

电子电气架构 --- 细化造车阶段流程

跨境电商视角：京东国际商品数据接口的多语言适配与跨境选品实践

Chord Crossing_abc405分析与解答

2025-05-21 Python深度学习5——数据读取

用Recommenders，实现个性化推荐

Socket编程——TCP

协议大和解：ETHERCAT转CANopen网关配置

打卡第二十四天

2025年Y2大型游乐设施操作证备考练习题

WordPress Elementor零基础教程

【Java微服务组件】异步通信P2—Kafka与消息

如何设计智慧工地系统的数据库？

JVM梳理（逻辑清晰）

RL电路的响应

阿里云数据盘级别

在 Excel xll 自动注册操作中使用东方仙盟软件————仙盟创梦IDE

LVLM-AFAH论文精读

标准IO（2）、文件IO

API面临哪些风险，如何做好API安全？

C语言指针深入详解（六）：sizeof和strlen的对比，【题解】数组和指针笔试题解析、指针运算笔试题解析

海洋探测利器：HY - 2C 卫星

【已解决】docker search --limit 1 centos Error response from daemon

逆向学习笔记1

Spring AI 1.0 GA 于 2025 年 5 月 20 日正式发布，都有哪些特性？

软件工程（七）：MQTT协议

【MC】红石比较器

多模态文档解析思路小记

解析思路v1

v1版问题及解决方案：

参考

相关文章：