当前位置: 首页 > news >正文

教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA

众所周知,大语言模型在处理千字、万字或是更长文本时,计算量往往急剧增加,甚至直接导致算力的「烧钱」游戏,也因此制约了 LLM 在处理高密度文本信息场景中的效率边界。

当业界不断探索如何优化计算效率时,DeepSeek-OCR 提出了一个全新的视角:能不能用「看」的方式来高效地「读」文本?基于这个大胆的设想,研究人员发现包含文档文本的单张图像,可以用远少于等价数字文本的符号来表示丰富的信息。这意味着,当我们选择将文本信息以一张张图像的形式交给大模型进行理解和记忆时,整体的效率可以得到有效提升。这不再是简单的图像处理,而是一种巧妙的「光学压缩」——利用视觉模态作为文本信息的有效压缩媒介,从而实现了远高于传统文本表示的压缩比。

具体而言,DeepSeek-OCR 包含两个组件:DeepEncoder 和 DeepSeek3B-MoE-A570M。编码器(即 DeepEncoder)负责提取图像特征、分词以及压缩视觉表示,解码器(即 DeepSeek3B-MoE-A570M)用则于根据图像标记和提示生成所需结果。其中 DeepEncoder 作为核心引擎,设计用于在高清输入下保持低激活状态,同时实现高压缩率,以确保视觉 token 的数量既优化又易于管理。实验表明,当文本 token 数量是视觉 token 数量的 10 倍以内(即压缩率 < 10× )时,模型可以实现 97% 的解码(OCR)精度。即使在压缩率为 20× 的情况下,OCR 准确率仍保持在约 60%。

DeepSeek-OCR 架构图

DeepSeek-OCR 的发布,不仅仅是 OCR 任务的进步,更在长上下文压缩和探索 LLMs 中的记忆遗忘机制等前沿研究领域展示了巨大的潜力。

在 OmniDocBench 上,它使用仅 100 个视觉 token 就超越了 GOT-OCR2.0(每页 256 个 token),并且在使用少于 800 个视觉 token 的情况下,表现优于 MinerU2.0(平均每页 6000+ 个 token)。在生产环境中,DeepSeek-OCR 每天可以为 LLMs/VLMs 生成 20 万页以上的训练数据(使用单个 A100-40G)。

在 OmniDocBench 上的性能比较

「DeepSeek-OCR:「视觉压缩」替代传统字符识别」现已上线 OpenBayes 公共教程板块,快来一键部署体验!

* 教程链接:

https://go.openbayes.com/ECgq9

Demo 运行

01 Demo 运行阶段

1.登录 http://OpenBayes.com,在「公共教程」页面,选择「DeepSeek-OCR:「视觉压缩」替代传统字符识别」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr


4.等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「打开工作空间」旁边的跳转箭头,即可跳转至 Demo 页面。

02 效果演示

进入 Demo 运行页面后,上传需解析的文档图像,点击「Extract Text」即可开始解析。


模型会首先对图像中的文本或图表模块进行划分,再输出 Markdown 格式文本。

* 教程链接:

https://go.openbayes.com/ECgq9

http://www.dtcms.com/a/605281.html

相关文章:

  • Mac多功能音视频AI处理工具VideoProc Converter AI
  • 【技术贴】全链路协同!艾为电子开启端侧AI音频“精而优”时代
  • 2025国产ITSM厂商选型指南:从基础流程、智能赋能到全链路协同方案的全面对比
  • 数据结构——四十二、二叉排序树(王道408)
  • VueUse的使用
  • 【LeetCode】111. 二叉树的最小深度
  • 如何将html发布到网站wordpress用户筛选
  • 深度智能体-智能体加强版
  • ZCC75XXH- 40V/150mA 高压线性稳压器替代HT75XX
  • 多媒体语音通话中,信令参数T1/ms, T2/s, T4/s作用
  • Travel uni-app 项目说明
  • 永磁同步电机无速度算法--基于一阶线性状态观测器的反电动势观测器
  • 番禺网站建设怎样网站建设公司怎样做账
  • 网站开发项目总结模板网站开发 证书
  • Python 自定义迭代器 --以斐波那契数列为例
  • AI一键PPT 2.0.3 一键智能生成
  • 232. 用栈实现队列
  • 如何在桌面创建网页快捷图标?(电脑 / 手机通用操作指南)
  • soular实战教程系列(2) - 如何统一管理TikLab帐号体系
  • k8s 发行说明(版本)
  • 批处理病毒原理、防御
  • 网站建设对企业的好处有哪些嘉兴网站制作建设
  • 几大网站类型网站建设所需人员
  • KAFKA自动修改所有以**开头的主题脚本
  • 记录生活系统|记录美好|健康管理|基于java+Android+微信小程序的记录生活系统设计与实现(源码+数据库+文档)
  • PHP Calendar
  • 用 Kafka 打通实时数据总线Flink CDC Pipeline 的 Kafka Sink 实战
  • Podman讲解
  • PHP EOF (Heredoc)
  • Spring Boot集成Kafka:最佳实践与详细指南