当前位置: 首页 > news >正文

多模态大模型OCR幻觉缓解思路:DianJin-OCR-R1通过“再看一眼”图像减轻幻觉

前期介绍了通过GRPO的方式解决多模态大模型OCR幻觉的思路《GRPO强化学习缓解多模态大模型OCR任务的幻觉思路及数据生成思路》。

由于多模态大模型的OCR感知能力不是特别强,容易像LLM一样产生幻觉-即生成输入图像中并不存在的词汇。LVLMs 设计用于通用目的,在OCR 任务上的表现往往不如在特定领域数据集上训练的专家模型。

幻觉例子

下面来看一个方案,首先通过利用自身的 OCR 能力识别输入图像中的内容,然后调用
其他工具(即其他专家模型)获取其结果作为参考,最后“再看一眼”图像并重新思考推理过程,以提供最终的识别结果,从而减轻 LVLMs 幻觉问题。

方法

给定一张图像和一个文本问题,DianJin-OCR-R1 首先利用自身的 OCR 能力识别输入图像中的相关内容。随后,它调用其他专家模型或工具,并将其结果作为参考或补充信息。接着,模型“再次审视”图像,综合分析自身结果及其他模型的结果,反思在识别过程中是否出现错误或遗漏。最后,模型提供最终的识别内容。

过程pipline

数据构建

在印章、表格、公式三类OCR任务上生成推理数据,格式:

  • 印章识别:文本
  • 表格识别:HTML代码(需包含单元格合并标记colspan/rowspan,确保结构与图像完全一致);
  • 公式识别:LaTeX代码。

三个任务的prompt:

数据构建的核心是生成包含“推理过程”和“正确结果”的结构化样本,选用Qwen-VL-Max作为“推理链生成器”。

推理链(rir_iri)的结构:模型自身识别的内容用 < think>< /think> 标签包围,多个工具响应用 < tool>< /tool> 标签包围,反思内容用 < rethink>< /rethink> 标签包围。生成的输出用 < answer>< /answer> 标签包围。

数据集来源
  1. 印章识别

    ReST数据集(ICDAR 2023印章标题识别竞赛数据集),含5000张训练图、5000张测试图(因测试集无标注,仅用训练集);

    参考工具:PP-StructureV3(专家OCR模型,低幻觉)、Qwen-VL-OCR(专家VLM,适配印章文本识别)。

  2. 表格识别

    表格需同时覆盖“语言多样性”(中/英文)和“结构复杂性”(合并单元格、多层表头);

    • 内部数据集(补充未公开的复杂表格场景,如合并单元格、跨页表格);

    • TabRecSet(公开双语表格数据集,含38.1k表格,20.4k英文+17.7k中文);

    • 参考工具:PP-StructureV3(表格结构解析,如colspan/rowspan识别)、MonkeyOCR-3B(LVLM,优化表格内容提取,适配双语场景)。

  3. 公式识别

    数据集:UniMER-1M

    参考工具:PP-StructureV3(PP-FormulaNet模块,优化公式结构解析)、MonkeyOCR-3B(擅长公式字符识别,减少符号错误)。

经过处理,构建了三类任务的推理数据集,统一表示为:

Rsr/Rtr/Rfr=(ii,qi,ri,oi)R_{sr}/R_{tr}/R_{fr} = (i_i, q_i, r_i, o_i)Rsr/Rtr/Rfr=(ii,qi,ri,oi)

其中RsrR_{sr}Rsr(印章推理数据集)、RtrR_{tr}Rtr(表格推理数据集)、RfrR_{fr}Rfr(公式推理数据集)的规模均为1024条样本(样本量均衡,避免某类任务过拟合);

各数据集的token统计

模型训练及奖励概述
  • Qwen2.5-VL-7B-Instruct 作为训练底座,
  • SFT掌握推理流程
  • RFT优化精度与格式:
    • 格式奖励:推理链需严格包含< recognition>、< tool>、< rethink>、`` 标签,且无额外内容 → 奖励 1.0;否则 → 奖励 0.0
    • 准确率奖励:(1)印章:完全匹配→1.0,否则 0.0;(2)表格:奖励 = TEDS(结构 + 内容相似度);(3)公式:奖励 = CDM(字符匹配度),CDM=1.0 时额外加 0.5(鼓励完美结果)。

实验效果

参考文献:DianJin-OCR-R1: Enhancing OCR Capabilities via a
Reasoning-and-Tool Interleaved Vision-Language Model,https://www.arxiv.org/pdf/2508.13238
repo:https://github.com/aliyun/qwen-dianjin

http://www.dtcms.com/a/496026.html

相关文章:

  • JJJ:SD 卡中的 OCR(Operating Conditions Register)寄存器
  • 手机网站图片切换网站设计师需要什么知识与技能
  • 20251017流程控制Demo
  • 浔川 AI 翻译 v7.0 公测版介绍(即将上线)
  • CPU性能对GPU服务器有影响吗?
  • 安徽省港航建设投资集团网站牛商网网站后台
  • 永磁体的磁导率
  • 亚马逊网站建设进度计划网站怎么做落款
  • h5模板网站西安到北京的高铁
  • wordpress建站两秒打开论坛模板建站
  • AI服务器工作之服务器的种类分类
  • 校园网站建设的目的中国建设机械教育协会网站
  • nextjs 接入 谷歌分析
  • asp.net core CVE-2025-55315漏洞验证修复
  • 建网站要多少费用加强信息管理 维护网站建设
  • 读书笔记:《2049未来10000天的可能》
  • 多GPU服务器在大型量子比特状态向量模拟中的实现方式
  • 网站下载器国际论坛网站模板
  • ui设计公司审美积累 | 金融人工智能与用户体验 用户界面仪表盘设计
  • 盗版小说网站怎么做售卖网站建设实验报告
  • 工业互联与设备IOT助力生产制造实践分享
  • 网站服务器试用网站定做公司
  • 深圳网站优化多少钱东道设计作品
  • 电商系统分布式架构实战:从单体到微服务的演进之路
  • C++中如何使用子类的指针指向父类的对象
  • 模版网站怎么做微信公众号微网站怎么建设
  • 推广网站多少钱足球积分排行榜最新
  • 网站建设与网页制作案例教程wordpress html5 模板下载
  • UI自动化测试实战:从入门到精通
  • android APP实现指纹免密登录的实现思路