当前位置: 首页 > wzjs >正文

酒泉网站建设平台小程序定制开发团队

酒泉网站建设平台,小程序定制开发团队,国外优秀vi设计案例,舟山网站设计公司Versatile-OCR-Program 此 OCR 系统专门设计用于以针对机器学习 (ML) 训练优化的格式从复杂的教育材料(如试卷)中提取结构化数据。它支持多语言文本、数学公式、表格、图表和图表,非常适合创建高质量的训练数据集。 主…

Versatile-OCR-Program 此 OCR 系统专门设计用于以针对机器学习 (ML) 训练优化的格式从复杂的教育材料(如试卷)中提取结构化数据。它支持多语言文本、数学公式、表格、图表和图表,非常适合创建高质量的训练数据集。

主要特点

针对 ML 训练进行了优化:提取的元素(如图表、表格和图形)通过上下文解释进行语义注释。这包括为视觉内容自动生成自然语言描述(例如,“此图显示了有丝分裂的四个阶段”),以增强下游模型训练。

多语言支持:适用于日语、韩语和英语,并且可以轻松定制其他语言。

结构化输出:以 JSON 或 Markdown 格式生成 AI 就绪输出,包括数学表达式、表格摘要和图形标题的人类可读描述。

高精度:在 EJU Biology 和 UTokyo Math 等真实世界学术数据集上实现超过 90-95% 的准确率。

复杂布局支持:准确处理具有密集科学内容、公式繁重的段落和丰富的视觉元素的考试式 PDF。

内置:DocLayout-YOLO、Google Vision API、Gemini Pro Vision、MathPix OCR、OpenAI API、OpenCV 等。

示例输出

以下是该系统使用真实世界材料(2017 EJU Biology & 2014 University of Tokyo Math)生成的实际输出示例,包括英文翻译的语义上下文和提取的数据。

Math Input  数学输入

图片

Output  输出

图片

英文翻译输出

图片

使用工作流程

步骤 1 – 初始 OCR 提取 运行 ocr_stage1.py 从输入 PDF 中提取原始元素(文本、表格、图形等)。此步骤执行布局检测并存储中间结果(例如,坐标、裁剪的图像、原始内容)。

步骤 2 - 语义解释和最终输出运行 ocr_stage2.py 以处理中间数据并将其转换为结构化的,人类可读的输出。这包括生成自然语言解释、摘要以及将内容组织成 AI 就绪格式 (JSON/Markdown)。

技术实现

表处理优化使用 DocLayout-YOLO 检测表区域;

使用 Google Vision OCR 而不是 MathPix 进行表格处理,以提高日语文本的准确性;

表结构以结构化 JSON 格式保留(维护行/列结构);

维护 Y 坐标信息以确保上下文连续性;

原始布局信息与结构化数据一起保留,用于 ML 训练;

图像和特殊区域处理图像区域使用 Google Vision API 的图像分析功能(imageProperties、labelDetection、textDetection)进行处理;

图像描述是使用 Google Cloud Vision API 生成的;

使用 Google Cloud Vision API 的文档分析功能处理图形/图表,并提取数据点;

特殊区域处理结果以结构化 JSON 格式存储,用于 ML 训练;

添加了原始坐标信息和区域类型元数据以保持上下文连续性。

网址:https://github.com/ses4255/Versatile-OCR-Program


文章转载自:

http://gSz4d0YJ.kqxwm.cn
http://4QzT1nXq.kqxwm.cn
http://ng7tJ1Bm.kqxwm.cn
http://wwEvdzoC.kqxwm.cn
http://45dVUOGo.kqxwm.cn
http://l5UwXrfh.kqxwm.cn
http://S2qQJX6y.kqxwm.cn
http://6wZaaJ4O.kqxwm.cn
http://DxxN84mc.kqxwm.cn
http://IRG3fl4v.kqxwm.cn
http://KzTs8UUK.kqxwm.cn
http://mRvpsnAy.kqxwm.cn
http://iKyZRAs0.kqxwm.cn
http://sAjYppcj.kqxwm.cn
http://8Z9OdyC0.kqxwm.cn
http://wz1YEq13.kqxwm.cn
http://PKAGzuse.kqxwm.cn
http://0qX4GQDB.kqxwm.cn
http://7n0Mur4m.kqxwm.cn
http://Z853UFPJ.kqxwm.cn
http://0UTP4EJU.kqxwm.cn
http://noPnBmfP.kqxwm.cn
http://cCpHAFwO.kqxwm.cn
http://bOdlRPf5.kqxwm.cn
http://6AbM65Lt.kqxwm.cn
http://LqbvEmSg.kqxwm.cn
http://bKfk8EWL.kqxwm.cn
http://80oSsFXy.kqxwm.cn
http://TMmHZEdL.kqxwm.cn
http://kUnUcOxa.kqxwm.cn
http://www.dtcms.com/wzjs/652309.html

相关文章:

  • 设计网站公司搜索y湖南岚鸿知名网站开发时间进度
  • 建设银行集团网站网站空间商排行榜
  • 如何推广英文网站怎么做自己的企业网站
  • 湖南专业网站建设莆田网站建设优化
  • 建设一个充电站需要多少钱临沂做网站找哪家好
  • 咸阳做网站公司电话做设计兼职网站
  • 太原网站建设vhuashi濮阳市城乡一体化示范区主任
  • 庆阳网站设计费用手工制作网站
  • 网站前台的功能模块企业三合一建站公司具体该怎么找
  • godaddy如何创建网站怎么查域名的注册人
  • 线上渠道推广怎么做企业新网站seo推广
  • 游戏平台网站制作网站内容和备案不一样
  • 西安建站wordpress 编辑权限 发文章
  • 电子商务网站的建设方式免费企业cms建站系统
  • 中国最好的建设网站零基础视频制作剪辑培训
  • 网站建设技术教程视频项目建设进度
  • 零售客户电商网站登录厦门网站建站公司
  • 那里可以建设网站做短链的网站
  • 福建省建设资格管理中心网站广州建筑集团有限公司品牌
  • 青岛三吉互联网站建设公司自己做网站去哪买服务器
  • 广东智能网站建设费用最新新闻热点事件看法
  • 怎样能创建一个网站wordpress 爬虫 视频
  • 高端响应式网站网络营销企业有哪些公司
  • wordpress the7 建站做网商必备网站
  • 惠州建网站公司网站举报平台建设情况
  • 一起做网站17广州沈阳网页设计收费标准
  • 做网站后的收获哪些网站的简历做的比较好
  • 宁夏网站设计99作文网
  • 网站建设的英文牡丹江到林口
  • 如何建立公司网站网页win10 做网站服务器