当前位置: 首页 > news >正文

分享一些多模态文档解析思路

多模态文档解析思路小记

作者:Arlene

原文:https://zhuanlan.zhihu.com/p/1905635679293122466

多模态文档解析内容涉及:文本、表格和图片

解析思路v1

  • 基于mineru框架对pdf文件进行初解析

图片

其具备较完整的布局识别和内容识别,并将识别的结果编辑为markdown格式。

  • 针对使用场景如合同审核进行二次处理

图片

合同审核场景对合同内容的准确性和完整性要求较高,故将解析出的discarded_blocks内容进行复原,重构md文件。

  • 多模态内容理解

使用vlm对合同的图像和表格图像进行整体内容分析。经测试,至少qwen 2.5 vl -7b以上的模型方可实现较为准确的内容描述。

v1版问题及解决方案:

  1. 出现整行内容识别遗漏。(解决:将magic-pdf版本更新至3.11版本,一定程度上解决了现在的问题)

  2. discared_blocks中可能包含一些识别准确率较低的内容。(解决:通过score设置阈值&判断文本字数筛选)

  3. 表格截取不全

参考

  • mineru项目地址:GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

  • 图片

相关文章:

  • 条件随机场 (CRF) 原理及其在语义分割中的应用
  • 垃圾回收(GC)基础原理全面解析
  • AI智能分析网关V4人员吸烟检测算法搭建加油站/医院/学校等多场景安全防护
  • Agentic Loop与MCP:大模型能力扩展技术解析
  • 电子电气架构 --- 细化造车阶段流程
  • 跨境电商视角:京东国际商品数据接口的多语言适配与跨境选品实践
  • Chord Crossing_abc405分析与解答
  • 2025-05-21 Python深度学习5——数据读取
  • 用Recommenders,实现个性化推荐
  • Socket编程——TCP
  • 协议大和解:ETHERCAT转CANopen网关配置
  • 打卡第二十四天
  • 2025年Y2大型游乐设施操作证备考练习题
  • WordPress Elementor零基础教程
  • 【Java微服务组件】异步通信P2—Kafka与消息
  • 如何设计智慧工地系统的数据库?
  • JVM梳理(逻辑清晰)
  • RL电路的响应
  • 阿里云数据盘级别
  • 在 Excel xll 自动注册操作 中使用东方仙盟软件————仙盟创梦IDE
  • 网站页面设计报价/网络推广有效果吗
  • 现在企业需要建设网站吗/网上如何推广自己的产品
  • php网站建设外国参考文献/北京seo产品
  • 北京网站案例/营销软文广告
  • 淘宝网发布网站建设/南宁seo全网营销