当前位置: 首页 > news >正文

百度 PaddleOCR 3.0 深度测评:与 MinerU 的复杂表格识别对决

在这里插入图片描述

2025 年 10 月 17 日,百度正式发布最新 OCR 产品 ——PaddleOCR-VL 0.9B。这款定位 “业界领先、可直接部署” 的 OCR 与文档智能引擎,宣称可提供从文本识别到文档理解的全流程解决方案,其实际表现究竟如何?本文将通过多场景测试一探究竟。

一、产品背景与核心能力

作为国内最早布局大模型的企业之一,百度在 OCR 领域起步早且积累深厚,曾是其核心技术名片。尽管百度在通用大模型赛道多次被同行压制,但在 OCR 这一传统优势领域,近期推出的 PaddleOCR 3.0 完成了传统 OCR 技术的架构级升级,不仅融入多模态大模型能力,还与文心大模型 4.5 实现深度协同。

回溯过往,百度 OCR 曾是其妥妥的技术名片。开源端,PaddleOCR 凭借超轻量级架构与高精度表现,在 GitHub 收获超 5 万星标,成为 Umi-OCR、RAGFlow 等知名项目的核心依赖,堪称开发者心中的 “首选工具”;商业端,其高性价比的 API 服务与行业定制方案,广泛覆盖金融、物流、医疗等场景。

本次发布的 PaddleOCR 3.0,核心能力聚焦四大模块:

  • PaddleOCR-VL - 通过 0.9B 超紧凑视觉语言模型增强多语种文档解析
    面向文档解析的 SOTA 且资源高效的模型, 支持 109 种语言,在复杂元素(如文本、表格、公式和图表)识别方面表现出色,同时资源消耗极低。

  • PP-OCRv5 — 全场景文字识别
    单模型支持五种文字类型(简中、繁中、英文、日文及拼音),精度提升13个百分点。解决多语言混合文档的识别难题。

  • PP-StructureV3 — 复杂文档解析
    将复杂PDF和文档图像智能转换为保留原始结构的Markdown文件和JSON文件,在公开评测中领先众多商业方案。完美保持文档版式和层次结构。

  • PP-ChatOCRv4 — 智能信息抽取
    原生集成ERNIE 4.5,从海量文档中精准提取关键信息,精度较上一代提升15个百分点。让文档"听懂"您的问题并给出准确答案。

二、对比测试:聚焦复杂表格识别

本次测试以 PaddleOCR 3.0 与 行业知名工具 MinerU 为对比对象。传统文本类 OCR 技术已趋成熟,因此测试重点聚焦 “复杂表格识别”—— 这是实际业务中高频出现且难度较高的场景(如合并单元格、单元格换行、拍照形变、灯光阴影、图像模糊等)。

为便于阅读,下文将用 红色字体 标注模型识别 错误 的内容。

测试一:扫描表格(含轻微形变)

测试条件:扫描生成的表格图像,无阴影、清晰度尚可,但存在轻微形变。

在这里插入图片描述

PaddleOCR表现

物质 品名Y 值G 值挥发 份卡数重量(吨)单价(元/ 吨)质物总金额货物 是否 在库备注
原煤4964159.561175187483
原煤4964527.581170617268.6
原煤4964445.441123500229.12
合计1132.581304980.72

MinerU表现

物质品名Y值G值挥发份卡数重量(吨)单价(元/吨)质物总金额货物是否在库备注
原煤4964159.561175187483
原煤4964527.581170617268.6
原煤4964445.441123500229.12
合计1132.581304980.72

测试结论:两个模型识别准确度均达 100%。因测试场景较简单,两者未拉开差距,暂以 1:1 战平

测试二:竖向表格(含合并单元格 + 轻微形变)

测试条件:表格清晰度良好,存在轻微形变,且为竖向排版 + 合并单元格。

请添加图片描述

PaddleOCR表现

序号名称所有权或使用权归属数量(台)机台编号型号质量、状况、所在地(见车间设备布置图)等情况抵押价值(万元)作为抵押物签字
1导线机柏仕威11LD-005, PW-LD-006, PW-LD-008, LD-001, PW-LD-004, LD-001, LD-009, LD-012, PW-LD-014, LD-010, SP-001质量完好,在公司车间一内,可以运转。4.4柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字)
3柱脚机柏仕威15PT-031, PW-PT-006, PW-PT-005, PW-PT-004, PT-003, PW-PT-002, PW-PT-001, PW-PT-008, PT-007, PT-028, PT-027, PT-018, PT-017, PT-010, PT-009质量完好,在公司车间二内,可以运转。6.0
4夹脚机柏仕威1CP-002质量完好,在公司车间二内,可以运转。1.6
5铜帽冲压机(开式可倾压力机)柏仕威4CP-041~CP-044J23-10质量完好,在公司车间二内,可以运转。12.4
合计3112.4

MinerU表现

序号名称所有权或使用权归属数量(台)机台编号型号质量、状况、所在地(见车间设备布置图)等情况抵押价值(万元)作为抵押物签字
1导线机柏仕威11LD-005, PW-LD-006PW-LD-008, LD-001,PW-LD-004 LD-001, LD-009, LD-012, PW-LD-014, LD-010, SP-001质量完好,在公司车间一内,可以运转。4.4柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字)
3柱脚机柏仕威15PT-031, PW-PT-006, PW-PT-005, PW-PT-004, PT-003, PW-PT-002, PW-PT-001, PW-PT-008, PT-007, PT-028, PT-027, PT-018, PT-017, PT-010, PT-0096.0
4夹脚机柏仕威1CP-0020.4
5铜帽冲压机(开式可倾压力机)柏仕威4CP-041~CP-044J23-10质量完好,在公司车间二内,可以运转。1.6
合计3112.4

测试结论:MinerU 识别效果更优。PaddleOCR 存在三处关键错误:“质量状况” 列描述错乱、“夹脚机” 与 “铜帽冲压机” 抵押价值识别错误,未识别到 “柏仕威法人 (签字)”;MinerU 仅有几台编号的标点错误,无实质信息偏差。此轮 MinerU 胜出,战况更新为1:2(PaddleOCR 落后)

测试三:清晰表格(含手写体)

测试条件:表格主体清晰,但包含手写金额(手写体为 OCR 核心难点之一)。

请添加图片描述

PaddleOCR表现

产品名称规格单位数量单价(含税)金额提(交)货时间
药品一批
合计¥4200.0000
总计金额(大写)仟贰佰万元

MinerU表现

产品名称规格单位数量单价(含税)金额提(交)货时间
药品一批
合计¥4200.0000
总计金额(大写)仟贰佰万元正

测试结论:两者均存在手写体识别误差。金额部分均误识别为 “¥4200.0000”(实际为 4200 万元,但是这部分感觉书写有问题,属视觉干扰导致);大写金额部分,PaddleOCR 误将 “肆” 写为 “捌”,MinerU 误将 “肆” 识别为 “贰” 但多保留 “正” 字,无本质差距。此轮打平,战况更新为2:3(PaddleOCR 落后)

测试四:模糊表格(含内容压边线)

测试条件:表格内容模糊,且部分文字压在表格线上(易导致字段错位)。

请添加图片描述

PaddleOCR表现

名称单位数量单据号码金额保管期限保管起讫日期
存单101-010392200¥4,350,000.002021/07/27-2024/01/27
保管金额合计(大写)人民币肆佰叁拾伍万元整

MinerU表现

名称单位数量单据号码金额保管期限保管起讫日期
存单101-010392200¥4,350,000.0020210727-20240127
人民币肆佰叁拾伍万元整
保管金额合计(大写)人民币肆佰叁拾伍万元整

测试结论:两者核心信息识别均正确,但 PaddleOCR 表现更优。MinerU 多生成一行重复的 “大写金额” 内容,且保管日期格式未带分隔符;PaddleOCR 无冗余内容,格式更规范。此轮 PaddleOCR 胜出,战况更新为4:4(战平)

测试五:复杂场景(合并单元格 + 形变 + 模糊)

测试条件:综合难度最高的场景 —— 含合并单元格、表格形变、图像模糊,接近真实业务中 “难识别” 的极限情况(人工识别亦存在难度)。因表格数据量大,仅对比表头、第一行数据及关键信息。

请添加图片描述

PaddleOCR表现

序号期数日期车号货主姓名质量重量金额货客户信息存放库位备注
品种卡数毛重皮重扣重净重净重(折精)单价总价款联系方式身份证号开户银行账号
1322月21日HB7165叶明原煤4964101.9420.4481.50117595,762.501560488499230403198709190236中国农业银行鹤岗大陆支行6228482228429815470
...
合计1466.44333.861132.581,301,980.72

业务发生地:

用款方现场负责人:

监管方监管员:

填报日期:2022年3月10日

MinerU表现

序号期数日期车号货主姓名质量重量金额货客户信息存放库位备注
品种卡数毛重皮重扣重净重重(折精煤)单价总价款联系方式身份证号开户银行帐号
1322月21日黑HB7165叶明原煤4964101.9420.4481.50117695,702.501560188499230403198709190236中国农业银行鹤岗大支行62284R2228429815470
...
合计1466.44333.861132.581,301,980.72

测试结论:PaddleOCR 以微弱优势胜出。两者在高难度场景下均表现出色,但 PaddleOCR 错误更少:仅表头 “售货客户信息” 中 “售” 识别为 “货” 字、车号 “黑 HB7165” 遗漏 1 个 “H”、单价 “1176” 误写为 “1175”;MinerU 则存在联系方式、银行名称、账号的字符错误,且未识别到表格底部的补充信息,且最后两列的表格展现出现偏差。此轮 PaddleOCR 胜出,最终战况为 5:4(PaddleOCR 反超)

三、最终总结

本次测试聚焦实际业务中的复杂表格场景,PaddleOCR 3.0 虽以微弱优势在对比中胜出,但模型本身未实现突破性提升,与 MinerU 的差距主要体现在 “细节精度” 与 “边缘信息识别” 上。

值得肯定的是,PaddleOCR 3.0 的识别速度表现更优 —— 平均比 MinerU 快 2~3 秒,这大概率得益于其 PaddleOCR-VL 0.9B 的超紧凑模型参数优势。从实际应用角度看,0.9B 参数的模型部署成本更低,在需要批量处理表格的业务场景(如金融单据录入、物流报表解析)中,具备更高的性价比与落地潜力。

最后附上两款工具的体验地址,供读者自行测试验证:

  • PaddleOCR 体验地址:https://aistudio.baidu.com/application/detail/98365

  • MinerU 体验地址:https://mineru.net/OpenSourceTools/Extractor

http://www.dtcms.com/a/507411.html

相关文章:

  • 选cpp /c++方向工作职业发展的优缺点
  • 香港硬防服务器防御DDOS攻击的优点
  • 如何利用扣子生成小程序并进行发布指南
  • Rust 与 Go – 比较以及每个如何满足您的需求
  • HTTP 核心知识点速查表
  • YOLOv4 :兼顾速度与精度!
  • 甘南网站建设asp网站仿制
  • 【AI4S】Generative AI 为药物设计带来新思路:寻找“美丽分子”
  • 第19节-非规范化数据类型-Enum
  • 曼彻斯特编码与差分曼彻斯编码的区别
  • 网站内链检测百度关键词优化工具是什么
  • Node.js+Koa2+MySQL 打造前后端分离项目(视频教程)
  • 企业网站怎么管理系统用idea做html网站
  • 高端建网站西部域名网
  • unbuntu重置netplan
  • Transformer架构:深度学习序列建模的革命性突破
  • Katalon AI 之StudioAssist 代理模式MCP 服务器介绍和使用
  • 网站建设与维护招投标书搜狗搜索太原运营中心怎么样
  • DeepSeek-OCR:用图像压缩文本?一种面向长上下文的新思路
  • 苏州网站设计网站呼和浩特资产评估公司
  • [优选算法专题四.前缀和——NO.30 和可被 K 整除的子数组]
  • 【论文精读】Back to Newton’s Laws:基于可微物理的视觉化敏捷飞行学习
  • 中国空间站设计在轨飞行几年WordPress自定义图床
  • 依赖管理不卡顿!Nexus+cpolar构建企业级私有仓库访问通道
  • 中国建设银行网站用户桂林网站建设服务
  • 【面试】 Java中级开发工程师面试精选:深度问题与实战解析..
  • 投资理财学习笔记
  • 在openEuler 24.03 (LTS) 上配置 Python 开发环境教程
  • Claude Skill 编写最佳实践
  • 4D毫米波雷达MIMO天线阵列布局设计