当前位置: 首页 > news >正文

Monkey OCR简单介绍

前言

最近看论文看到一篇多模态大模型相关的,《MonkeyOCR: Document Parsing with a
Structure-Recognition-Relation Triplet Paradigm》是一种基于构造-识别-关系三元组范式的文档分析模型。

基本结构

在这里插入图片描述
系统采用结构识别关系框架,包括结构检测,定位和分类语义区域;块级内容识别,并行提取每个区域的结构化信息;和关系预测,确定检测到的元素的逻辑阅读顺序。

实验效果

无论是得分还是推理速度还是杠杠的,优于不少当前的模型,并且模型可以在3090上推理。
在这里插入图片描述
在这里插入图片描述

个人实验的效果

一个双栏13页的论文,一分钟OCR就将所有东西识别保存下来。
在这里插入图片描述

图片以及识别的内容均保存下来,并且公式可以以latex公式的出来

在这里插入图片描述

http://www.dtcms.com/a/292753.html

相关文章:

  • 为什么要微调大语言模型
  • 高等数学-矩阵知识
  • rocky9-zabbix简单部署
  • 如何实战适配政务服务智能体中台?
  • 中烟创新灯塔大模型应用开发平台入选工信部“政务大模型应用典型案例”
  • 【Android】xml和Java两种方式实现发送邮件页面
  • 在Python中操作Word
  • 嵌入式学习-土堆目标检测(3)-day27
  • Python 综合运用:MD 转 DOCX 工具
  • 上网行为管理知识
  • 054_TreeMap / LinkedHashMap
  • 小程序上传头像解析
  • numpy库 降维,矩阵创建与元素的选取,修改
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘Cython’问题
  • Protobuf学习
  • SDC命令详解:使用set_min_library命令进行约束
  • fuse低代码工作流平台概述【已开源】-自研
  • AWS: 云上侦探手册,七步排查ALB与EC2连接疑云
  • Kotlin调试
  • PyQt5在Pycharm上的环境搭建 -- Qt Designer + Pyuic + Pyrcc组合,大幅提升GUI开发效率
  • 测试学习之——requests day01
  • 【数据结构初阶】--栈和队列(一)
  • 注意力机制介绍
  • 从链式协同到生态共生:制造业数智化供应链跃升之路
  • spring boot 项目如何使用jasypt加密
  • 【中文翻译】SmolVLA:面向低成本高效机器人的视觉-语言-动作模型
  • 认识自我的机器人:麻省理工学院基于视觉的系统让机器了解自身机体
  • 机器人芯片(腾讯元宝)
  • 《小白学习产品经理》第八章:方法论之马斯洛需求层次理论
  • 【JS】获取元素宽高(例如div)