当前位置: 首页 > news >正文

DeepSeek-OCR:光学Token:长上下文建模的范式转变

我们来谈谈上下文。多年来我们一直在研究Transformer,将其扩展到史诗级的规模,但始终面临着同一个根本性障碍:计算成本随序列长度呈二次方爆炸式增长。我们尝试了各种巧妙的技巧——滑动窗口、分层注意力等等。我们一直在优化Token的处理方式,却从未质疑过Token本身。

如果问题不在于引擎,而在于燃料呢?

第一性原理的跨越

从本质上讲,语言就是信息。我们选择将信息表示为离散、抽象的Token流供AI处理。这是一种选择,而非自然法则。这是一种高效的编码,但对模型来说,处理它的成本很高。每个Token都需要被关注,并与其他所有Token建立关联。成本随序列长度的平方增长。O(n²)。这是长上下文模型的巨大障碍。

但有什么替代方案呢?让我们退一步思考。

对人类而言,被渲染出来的文本并非Token序列。它是一种视觉形态。我们阅读不是通过顺序解析Unicode码点;而是通过视觉完形来识别单词,利用空间布局来理解结构。文档的视觉呈现是对同一信息的一种不同的、通常更丰富的编码。

DeepSeek-OCR的根本洞见在于:我们可以利用这种视觉编码作为一种压缩机制。

光学Token:从1000个Token到1个

不要把它看作OCR,而应视为一种革命性的数据压缩器。标准方法就像试图用一句话完美概括一本书——这是一种有损的、基于逻辑的压缩,极其困难。而这种新方法则不同。它是一种物理压缩。

  1. 渲染。 将长文本序列渲染成文档图像。这是原始的高维数据。
  2. 提炼。 将此图像通过视觉编码器(“DeepEncoder”)。这还不是为了识别字符,而是提炼页面的视觉精华。一页文本的高分辨率图像包含巨大的空间冗余。一个好的视觉模型可以将其压缩,提取定义文本外观和布局的基本视觉模式——即"光学Token"。
  3. 解读。 将这一小套光学Token馈送到一个轻量级解码器。它的任务不再是处理成千上万个Token,而是执行一种"视觉推理"。它观察压缩后的视觉场景,并推断出最有可能生成该场景的文本序列。

其魔力在于压缩比。你可以将4096个文本Token的上下文渲染成图像,并将其压缩到仅256个光学Token。你刚刚将模型的工作量减少了16倍。计算瓶颈被打破了,不是通过更好的Token注意力算法,而是通过从根本上改变呈现给核心模型的信息表示形式

为何这是范式转变

这不是渐进式改进,而是游戏规则的改变。

  • 旧范式: 如何让Transformer更智能/更快速地处理更多文本Token
  • 新范式: 如何用更少、更密集的不同模态Token来表示相同的文本信息?

我们过去过于关注软件2.0——训练网络执行逻辑操作——以至于忽略了一个物理事实:图片是信息的空间压缩。这项工作利用了这一物理现实来获得计算优势。

未来之路

其影响是深远的。这不仅仅是构建一个更好的OCR。

  • AI的长期记忆: 想象一个拥有"视觉"记忆的AI。近期事件以高分辨率文本回忆,而较旧的记忆则被压缩成保留要点的低分辨率"心理图像"。这直接类比了人类的记忆。
  • 超越文档: 为什么止步于文本?代码、结构化数据,任何可以视觉渲染的信息都是这种压缩的候选对象。
  • 混合未来: 最优系统可能使用混合编码——数字Token用于精确的近期上下文,光学Token用于压缩的远程上下文。

我们一直试图通过制造更大的卡车来装载更多货物以解决上下文问题。DeepSeek-OCR则启示我们,应该发明更高效的包装箱。它有力地提醒我们,有时最强大的优化并非来自改进流程,而是源于重新思考基础。

代码已在GitHub上。去尝试吧。范式正在转变。

http://www.dtcms.com/a/520872.html

相关文章:

  • Windows 11 24H2内核堆栈保护:系统安全新盾牌
  • 自定义组件(移动端下拉多选)中使用 v-model
  • Android 14 系统启动流程深度解析:AVB流程
  • 阳春做网站0735郴州招聘信息网
  • 营销型网站建设申请域名网站翻页动画效果
  • NGINX架构特点和实现原理
  • 基于单片机的两路PWM信号输出及频率占空比相位差调节系统
  • uniapp三端影视源码苹果cms自动采集电影视频网站源码前端源码带VIP
  • 算法学习笔记-贪心算法总结
  • 山东省建设工程招标中心网站旅游网站前台怎么做
  • 常见神经网络
  • 公司网站ICP怎么备案呢网站维护界面
  • 建一个在线商城网站重庆做学校网站公司
  • HNSW算法实战:用分层图索引替换k-NN暴力搜索
  • 做公司网站的费用计入什么科目做三网站
  • 优秀集团网站部署个人网站
  • 大模型命名标识全解析:系统梳理与深度解读
  • 网站做关键词库的作用软件开发流程图名称
  • 无锡新区建设局网站温州专业营销网站费用
  • 数据结构——红黑树
  • 找北京赛车网站开发东营市做网站的公司
  • Agentic 组织-人和智能体协作的组织形态
  • 扩散模型与PINN融合的六大创新方向
  • pyside中多线程编程案例模型
  • 怎么做整蛊网站wordpress注册rest
  • 网站开通微信支付收费免费的ppt模板下载软件
  • 快速开发工具网站长沙网页制作设计
  • wordpress 搬站长沙企业seo服务
  • [人工智能-大模型-54]:模型层技术 - 数据结构+算法 = 程序
  • PHP调试,宝塔xdebug+vscode