【DeepSeek-OCR】光学Token:长上下文建模的范式转变
我们来谈谈上下文。多年来我们一直在研究Transformer,将其扩展到史诗级的规模,但始终面临着同一个根本性障碍:计算成本随序列长度呈二次方爆炸式增长。我们尝试了各种巧妙的技巧——滑动窗口、分层注意力等等。我们一直在优化Token的处理方式,却从未质疑过Token本身。
如果问题不在于引擎,而在于燃料呢?
第一性原理的跨越
从本质上讲,语言就是信息。我们选择将信息表示为离散、抽象的Token流供AI处理。这是一种选择,而非自然法则。这是一种高效的编码,但对模型来说,处理它的成本很高。每个Token都需要被关注,并与其他所有Token建立关联。成本随序列长度的平方增长。O(n²)。这是长上下文模型的巨大障碍。
但有什么替代方案呢?让我们退一步思考。
对人类而言,被渲染出来的文本并非Token序列。它是一种视觉形态。我们阅读不是通过顺序解析Unicode码点;而是通过视觉完形来识别单词,利用空间布局来理解结构。文档的视觉呈现是对同一信息的一种不同的、通常更丰富的编码。
DeepSeek-OCR的根本洞见在于:我们可以利用这种视觉编码作为一种压缩机制。
光学Token:从1000个Token到1个
不要把它看作OCR,而应视为一种革命性的数据压缩器。标准方法就像试图用一句话完美概括一本书——这是一种有损的、基于逻辑的压缩,极其困难。而这种新方法则不同。它是一种物理压缩。
- 渲染。 将长文本序列渲染成文档图像。这是原始的高维数据。
- 提炼。 将此图像通过视觉编码器(“DeepEncoder”)。这还不是为了识别字符,而是提炼页面的视觉精华。一页文本的高分辨率图像包含巨大的空间冗余。一个好的视觉模型可以将其压缩,提取定义文本外观和布局的基本视觉模式——即"光学Token"。
- 解读。 将这一小套光学Token馈送到一个轻量级解码器。它的任务不再是处理成千上万个Token,而是执行一种"视觉推理"。它观察压缩后的视觉场景,并推断出最有可能生成该场景的文本序列。
其魔力在于压缩比。你可以将4096个文本Token的上下文渲染成图像,并将其压缩到仅256个光学Token。你刚刚将模型的工作量减少了16倍。计算瓶颈被打破了,不是通过更好的Token注意力算法,而是通过从根本上改变呈现给核心模型的信息表示形式。
为何这是范式转变
这不是渐进式改进,而是游戏规则的改变。
- 旧范式: 如何让Transformer更智能/更快速地处理更多文本Token?
- 新范式: 如何用更少、更密集的不同模态Token来表示相同的文本信息?
我们过去过于关注软件2.0——训练网络执行逻辑操作——以至于忽略了一个物理事实:图片是信息的空间压缩。这项工作利用了这一物理现实来获得计算优势。
未来之路
其影响是深远的。这不仅仅是构建一个更好的OCR。
- AI的长期记忆: 想象一个拥有"视觉"记忆的AI。近期事件以高分辨率文本回忆,而较旧的记忆则被压缩成保留要点的低分辨率"心理图像"。这直接类比了人类的记忆。
- 超越文档: 为什么止步于文本?代码、结构化数据,任何可以视觉渲染的信息都是这种压缩的候选对象。
- 混合未来: 最优系统可能使用混合编码——数字Token用于精确的近期上下文,光学Token用于压缩的远程上下文。
我们一直试图通过制造更大的卡车来装载更多货物以解决上下文问题。DeepSeek-OCR则启示我们,应该发明更高效的包装箱。它有力地提醒我们,有时最强大的优化并非来自改进流程,而是源于重新思考基础。
代码已在GitHub上。去尝试吧。范式正在转变。
