当前位置: 首页 > news >正文

Versatile-OCR-Program:可以从复杂的教育材料(如试卷)中提取结构化数据的开源多模态OCR工具

Versatile-OCR-Program 此 OCR 系统专门设计用于以针对机器学习 (ML) 训练优化的格式从复杂的教育材料(如试卷)中提取结构化数据。它支持多语言文本、数学公式、表格、图表和图表,非常适合创建高质量的训练数据集。

主要特点

针对 ML 训练进行了优化:提取的元素(如图表、表格和图形)通过上下文解释进行语义注释。这包括为视觉内容自动生成自然语言描述(例如,“此图显示了有丝分裂的四个阶段”),以增强下游模型训练。

多语言支持:适用于日语、韩语和英语,并且可以轻松定制其他语言。

结构化输出:以 JSON 或 Markdown 格式生成 AI 就绪输出,包括数学表达式、表格摘要和图形标题的人类可读描述。

高精度:在 EJU Biology 和 UTokyo Math 等真实世界学术数据集上实现超过 90-95% 的准确率。

复杂布局支持:准确处理具有密集科学内容、公式繁重的段落和丰富的视觉元素的考试式 PDF。

内置:DocLayout-YOLO、Google Vision API、Gemini Pro Vision、MathPix OCR、OpenAI API、OpenCV 等。

示例输出

以下是该系统使用真实世界材料(2017 EJU Biology & 2014 University of Tokyo Math)生成的实际输出示例,包括英文翻译的语义上下文和提取的数据。

Math Input  数学输入

图片

Output  输出

图片

英文翻译输出

图片

使用工作流程

步骤 1 – 初始 OCR 提取 运行 ocr_stage1.py 从输入 PDF 中提取原始元素(文本、表格、图形等)。此步骤执行布局检测并存储中间结果(例如,坐标、裁剪的图像、原始内容)。

步骤 2 - 语义解释和最终输出运行 ocr_stage2.py 以处理中间数据并将其转换为结构化的,人类可读的输出。这包括生成自然语言解释、摘要以及将内容组织成 AI 就绪格式 (JSON/Markdown)。

技术实现

表处理优化使用 DocLayout-YOLO 检测表区域;

使用 Google Vision OCR 而不是 MathPix 进行表格处理,以提高日语文本的准确性;

表结构以结构化 JSON 格式保留(维护行/列结构);

维护 Y 坐标信息以确保上下文连续性;

原始布局信息与结构化数据一起保留,用于 ML 训练;

图像和特殊区域处理图像区域使用 Google Vision API 的图像分析功能(imageProperties、labelDetection、textDetection)进行处理;

图像描述是使用 Google Cloud Vision API 生成的;

使用 Google Cloud Vision API 的文档分析功能处理图形/图表,并提取数据点;

特殊区域处理结果以结构化 JSON 格式存储,用于 ML 训练;

添加了原始坐标信息和区域类型元数据以保持上下文连续性。

网址:https://github.com/ses4255/Versatile-OCR-Program

相关文章:

  • 进程的唤醒原语与挂起原语
  • 简单-快速-高效——模块化解析controlnet网络结构
  • 【xdoj离散数学上机】编程实现邮箱注册等价类划分(C++ 80/100分)
  • HTML5笔记: 什么是HTML
  • 十三届蓝桥杯省赛A组 扫描游戏
  • 如何挖掘客户的深层需求?需求挖掘指南
  • Java常见的23种设计模式
  • 入选ICLR‘25 Spotlight!深度强化学习(DRL)迎来新突破!
  • 残缺知识点
  • llama-factory微调qwen2.5-vl
  • 【开发经验】调试OpenBMC Redfish EventService功能
  • Open CASCADE学习|Convert BSpline Curve to Arc Spline
  • 优选算法系列(6.模拟)
  • 专业抑郁测试工具:让心理健康评估更简单
  • AI工厂崛起:解析吴泳铭提出的GPU中心化计算范式
  • 给k8s中绑定pv并在容器中运行中使用的pvc扩容
  • Elasticsearch单节点安装手册
  • LeetCode.3396.使数组元素互不相同所需的最少操作次数
  • ArkTS语言基础之函数
  • 从Excel到智能中枢:工单管理的MES系统进化论
  • 网站开发接入支付宝/网络营销平台有哪些?
  • 深圳手机app软件开发/重庆做seo外包的
  • 潍坊专业网站建设多少钱/西安百度竞价托管代运营
  • 川菜餐馆网站建设模板美食餐厅企业建站php源码程序/淄博百度推广
  • 建湖人才网招工/下载优化大师
  • 网站建设及空间/百度搜索入口官网