当前位置：首页 > news >正文

Monkey OCR简单介绍

news 2025/10/14 5:59:51

前言

最近看论文看到一篇多模态大模型相关的，《MonkeyOCR: Document Parsing with a
Structure-Recognition-Relation Triplet Paradigm》是一种基于构造-识别-关系三元组范式的文档分析模型。

基本结构

在这里插入图片描述
系统采用结构识别关系框架，包括结构检测，定位和分类语义区域;块级内容识别，并行提取每个区域的结构化信息;和关系预测，确定检测到的元素的逻辑阅读顺序。

实验效果

无论是得分还是推理速度还是杠杠的，优于不少当前的模型，并且模型可以在3090上推理。
在这里插入图片描述

个人实验的效果

一个双栏13页的论文，一分钟OCR就将所有东西识别保存下来。
在这里插入图片描述

图片以及识别的内容均保存下来，并且公式可以以latex公式的出来

在这里插入图片描述

查看全文

http://www.dtcms.com/a/292753.html

为什么要微调大语言模型

高等数学-矩阵知识

rocky9-zabbix简单部署

如何实战适配政务服务智能体中台？

中烟创新灯塔大模型应用开发平台入选工信部“政务大模型应用典型案例”

【Android】xml和Java两种方式实现发送邮件页面

在Python中操作Word

嵌入式学习-土堆目标检测（3）-day27

Python 综合运用：MD 转 DOCX 工具

上网行为管理知识

054_TreeMap / LinkedHashMap

小程序上传头像解析

numpy库降维，矩阵创建与元素的选取，修改

如何解决pip安装报错ModuleNotFoundError: No module named ‘Cython’问题

Protobuf学习

SDC命令详解：使用set_min_library命令进行约束

fuse低代码工作流平台概述【已开源】-自研

AWS: 云上侦探手册,七步排查ALB与EC2连接疑云

Kotlin调试

PyQt5在Pycharm上的环境搭建 -- Qt Designer + Pyuic + Pyrcc组合，大幅提升GUI开发效率

测试学习之——requests day01

【数据结构初阶】--栈和队列(一)

注意力机制介绍

从链式协同到生态共生：制造业数智化供应链跃升之路

spring boot 项目如何使用jasypt加密

【中文翻译】SmolVLA：面向低成本高效机器人的视觉-语言-动作模型

认识自我的机器人：麻省理工学院基于视觉的系统让机器了解自身机体

机器人芯片(腾讯元宝)

《小白学习产品经理》第八章：方法论之马斯洛需求层次理论

【JS】获取元素宽高（例如div）

前言

基本结构

实验效果

个人实验的效果

相关文章：