当前位置: 首页 > news >正文

【DeepSeek-OCR】光学Token:长上下文建模的范式转变

我们来谈谈上下文。多年来我们一直在研究Transformer,将其扩展到史诗级的规模,但始终面临着同一个根本性障碍:计算成本随序列长度呈二次方爆炸式增长。我们尝试了各种巧妙的技巧——滑动窗口、分层注意力等等。我们一直在优化Token的处理方式,却从未质疑过Token本身。

如果问题不在于引擎,而在于燃料呢?

第一性原理的跨越

从本质上讲,语言就是信息。我们选择将信息表示为离散、抽象的Token流供AI处理。这是一种选择,而非自然法则。这是一种高效的编码,但对模型来说,处理它的成本很高。每个Token都需要被关注,并与其他所有Token建立关联。成本随序列长度的平方增长。O(n²)。这是长上下文模型的巨大障碍。

但有什么替代方案呢?让我们退一步思考。

对人类而言,被渲染出来的文本并非Token序列。它是一种视觉形态。我们阅读不是通过顺序解析Unicode码点;而是通过视觉完形来识别单词,利用空间布局来理解结构。文档的视觉呈现是对同一信息的一种不同的、通常更丰富的编码。

DeepSeek-OCR的根本洞见在于:我们可以利用这种视觉编码作为一种压缩机制。

光学Token:从1000个Token到1个

不要把它看作OCR,而应视为一种革命性的数据压缩器。标准方法就像试图用一句话完美概括一本书——这是一种有损的、基于逻辑的压缩,极其困难。而这种新方法则不同。它是一种物理压缩。

  1. 渲染。 将长文本序列渲染成文档图像。这是原始的高维数据。
  2. 提炼。 将此图像通过视觉编码器(“DeepEncoder”)。这还不是为了识别字符,而是提炼页面的视觉精华。一页文本的高分辨率图像包含巨大的空间冗余。一个好的视觉模型可以将其压缩,提取定义文本外观和布局的基本视觉模式——即"光学Token"。
  3. 解读。 将这一小套光学Token馈送到一个轻量级解码器。它的任务不再是处理成千上万个Token,而是执行一种"视觉推理"。它观察压缩后的视觉场景,并推断出最有可能生成该场景的文本序列。

其魔力在于压缩比。你可以将4096个文本Token的上下文渲染成图像,并将其压缩到仅256个光学Token。你刚刚将模型的工作量减少了16倍。计算瓶颈被打破了,不是通过更好的Token注意力算法,而是通过从根本上改变呈现给核心模型的信息表示形式

为何这是范式转变

这不是渐进式改进,而是游戏规则的改变。

  • 旧范式: 如何让Transformer更智能/更快速地处理更多文本Token
  • 新范式: 如何用更少、更密集的不同模态Token来表示相同的文本信息?

我们过去过于关注软件2.0——训练网络执行逻辑操作——以至于忽略了一个物理事实:图片是信息的空间压缩。这项工作利用了这一物理现实来获得计算优势。

未来之路

其影响是深远的。这不仅仅是构建一个更好的OCR。

  • AI的长期记忆: 想象一个拥有"视觉"记忆的AI。近期事件以高分辨率文本回忆,而较旧的记忆则被压缩成保留要点的低分辨率"心理图像"。这直接类比了人类的记忆。
  • 超越文档: 为什么止步于文本?代码、结构化数据,任何可以视觉渲染的信息都是这种压缩的候选对象。
  • 混合未来: 最优系统可能使用混合编码——数字Token用于精确的近期上下文,光学Token用于压缩的远程上下文。

我们一直试图通过制造更大的卡车来装载更多货物以解决上下文问题。DeepSeek-OCR则启示我们,应该发明更高效的包装箱。它有力地提醒我们,有时最强大的优化并非来自改进流程,而是源于重新思考基础。

代码已在GitHub上。去尝试吧。范式正在转变。

http://www.dtcms.com/a/521626.html

相关文章:

  • 网站开发的前台开发工具erlang做网站优势
  • 个人备案 做网站济南建设信息网官网
  • typora的基本用法
  • 网站后台权限设计医院网
  • 蓝山网站建设wordpress目录说明
  • 网站开发demo版本手机网站有什么好处
  • app网站制作要多少钱重庆有专业做网站的吗
  • 网站浏览速度代刷网站是怎么做的
  • 【北京迅为】iTOP-4412精英版使用手册-第六十一章 PWM操作
  • 建一个营销网站的步骤确定网站建设的目的
  • 做网站 业务流程图wordpress+万能搜索页
  • 监控网站开发上海市建筑装饰工程集团有限公司
  • 网上怎样做电缆网站团队拓展活动游戏
  • 公司在网上做网站怎么做账wordpress ueditor 代码 转义
  • 做设计找图片的网站有哪些网站如何设定关键词
  • 380元网站建设搜索网站排名
  • abap 通用发送邮件程序(获取alv数据,带excel附件)
  • 搭建网站源码中国最近战争新闻
  • 人体姿态行为检测:从原理到实现
  • 32位汇编:实验6位运算类指令使用
  • centos系统怎么做网站昌吉州住房和城乡建设局网站
  • seo优化或网站编辑宜春住房和城乡建设部网站
  • C++ 可变参数模板实现递归继承(tuple 实现原理)
  • 商城县搜索引擎优化策略包括
  • nodejs相关基础知识-第二篇
  • 网站建设 经营范围大连市开发区网站建设公司
  • 矩形排版——CAD c#
  • DeepSeek-OCR - 轻量、精准、快速、跨语言的文字识别模型 图片转文字 图片文字识别 支持50系显卡 一键整合包下载
  • z怎么做优惠券网站个人网站建设思路
  • 品牌管理的三大要素百度seo快排软件