当前位置: 首页 > news >正文

Versatile-OCR-Program:可以从复杂的教育材料(如试卷)中提取结构化数据的开源多模态OCR工具

Versatile-OCR-Program 此 OCR 系统专门设计用于以针对机器学习 (ML) 训练优化的格式从复杂的教育材料(如试卷)中提取结构化数据。它支持多语言文本、数学公式、表格、图表和图表,非常适合创建高质量的训练数据集。

主要特点

针对 ML 训练进行了优化:提取的元素(如图表、表格和图形)通过上下文解释进行语义注释。这包括为视觉内容自动生成自然语言描述(例如,“此图显示了有丝分裂的四个阶段”),以增强下游模型训练。

多语言支持:适用于日语、韩语和英语,并且可以轻松定制其他语言。

结构化输出:以 JSON 或 Markdown 格式生成 AI 就绪输出,包括数学表达式、表格摘要和图形标题的人类可读描述。

高精度:在 EJU Biology 和 UTokyo Math 等真实世界学术数据集上实现超过 90-95% 的准确率。

复杂布局支持:准确处理具有密集科学内容、公式繁重的段落和丰富的视觉元素的考试式 PDF。

内置:DocLayout-YOLO、Google Vision API、Gemini Pro Vision、MathPix OCR、OpenAI API、OpenCV 等。

示例输出

以下是该系统使用真实世界材料(2017 EJU Biology & 2014 University of Tokyo Math)生成的实际输出示例,包括英文翻译的语义上下文和提取的数据。

Math Input  数学输入

图片

Output  输出

图片

英文翻译输出

图片

使用工作流程

步骤 1 – 初始 OCR 提取 运行 ocr_stage1.py 从输入 PDF 中提取原始元素(文本、表格、图形等)。此步骤执行布局检测并存储中间结果(例如,坐标、裁剪的图像、原始内容)。

步骤 2 - 语义解释和最终输出运行 ocr_stage2.py 以处理中间数据并将其转换为结构化的,人类可读的输出。这包括生成自然语言解释、摘要以及将内容组织成 AI 就绪格式 (JSON/Markdown)。

技术实现

表处理优化使用 DocLayout-YOLO 检测表区域;

使用 Google Vision OCR 而不是 MathPix 进行表格处理,以提高日语文本的准确性;

表结构以结构化 JSON 格式保留(维护行/列结构);

维护 Y 坐标信息以确保上下文连续性;

原始布局信息与结构化数据一起保留,用于 ML 训练;

图像和特殊区域处理图像区域使用 Google Vision API 的图像分析功能(imageProperties、labelDetection、textDetection)进行处理;

图像描述是使用 Google Cloud Vision API 生成的;

使用 Google Cloud Vision API 的文档分析功能处理图形/图表,并提取数据点;

特殊区域处理结果以结构化 JSON 格式存储,用于 ML 训练;

添加了原始坐标信息和区域类型元数据以保持上下文连续性。

网址:https://github.com/ses4255/Versatile-OCR-Program

http://www.dtcms.com/a/119434.html

相关文章:

  • 进程的唤醒原语与挂起原语
  • 简单-快速-高效——模块化解析controlnet网络结构
  • 【xdoj离散数学上机】编程实现邮箱注册等价类划分(C++ 80/100分)
  • HTML5笔记: 什么是HTML
  • 十三届蓝桥杯省赛A组 扫描游戏
  • 如何挖掘客户的深层需求?需求挖掘指南
  • Java常见的23种设计模式
  • 入选ICLR‘25 Spotlight!深度强化学习(DRL)迎来新突破!
  • 残缺知识点
  • llama-factory微调qwen2.5-vl
  • 【开发经验】调试OpenBMC Redfish EventService功能
  • Open CASCADE学习|Convert BSpline Curve to Arc Spline
  • 优选算法系列(6.模拟)
  • 专业抑郁测试工具:让心理健康评估更简单
  • AI工厂崛起:解析吴泳铭提出的GPU中心化计算范式
  • 给k8s中绑定pv并在容器中运行中使用的pvc扩容
  • Elasticsearch单节点安装手册
  • LeetCode.3396.使数组元素互不相同所需的最少操作次数
  • ArkTS语言基础之函数
  • 从Excel到智能中枢:工单管理的MES系统进化论
  • 40、web前端开发之Vue3保姆教程(四)
  • tcp/ip攻击及防范
  • 7、nRF52xx蓝牙学习(nrf_gpiote.c库函数学习)
  • Spring 服务调用接口时,提示You should be redirected automatically to target URL:
  • 7.第二阶段x64游戏实战-分析人物属性
  • 软件需求分析习题汇编
  • PostGreSQL/openGauss表膨胀处理
  • Postman测试
  • [创业之路-364]:穿透表象:企业投资的深层逻辑与误区规避
  • 程序化广告行业(69/89):电商素材制作与展示策略解析