LLM 论文精读(十二)DeepSeek-OCR: Contexts Optical Compression
这篇论文是 DeepSeek 又一篇巨作,发表于 2025年10月21日,距离博客成文时间 2025年10月23日约 2 天时间,总算赶上热乎的了。作者也开源了模型权重和使用方式。全文总结下来就一句话:DeepSeek 开发了一个全新的编解码器,实现了用极少量的 vision tokens 达到高精度的 OCR 解析,同时作者认为由于这个模型对 tokens 的需求极少,未来可以扩展到超长文本的应用上。
写在最前面
为了方便你的阅读,以下几点的注意事项请务必了解:
- 该系列文章每个字都是我理解后自行翻译并写上去的,可能会存在笔误与理解错误,如果发现了希望读者能够在评论区指正,我会在第一时间修正错误。
- 阅读这个系列需要你有基本的 LLM, OCR 相关基础知识,有时候我会直接使用英文名词,因为这些词汇实在不容易找到符合语境的翻译。
- 原文可能因为版面限制存在图像表格与段落不同步的问题,为了更方便阅读,我会在博文中重新对图像表格进行排版,并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
- 对于原文中的图像,我会在必要时对图像描述进行翻译并附上我自己的理解,但如果图像描述不值得翻译我也不会强行写上去。
Basic Information
- 论文标题:DeepSeek-OCR: Contexts Optical Compression
- 原文链接: https://arxiv.org/abs/2510.18234
- 发表时间:2025年10月21日
- 发表平台:arxiv
- 预印版本号:[v1] Tue, 21 Oct 2025 02:41:44 UTC (7,007 KB)
- 作者团队:Haoran Wei, Yaofeng Sun, Yukun Li
- 院校机构:
- DeepSeek-AI
- 项目链接: 【暂无】
- GitHub仓库: https://github.com/deepseek-ai/DeepSeek-OCR
Abstract
作者提出 DeepSeek-OCR 模型,作为对通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两部分组成:DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器。其中,DeepEncoder 作为核心引擎,旨在在高分辨率输入下保持低激活值,同时实现高压缩比,从而确保视觉 tokens 数量达到最佳且易于管理。实验表明,当文本 tokens 数量在视觉 tokens 数量的 10 倍以内(即压缩比小于 10 倍)时,该模型的解码 (OCR) 精度可达 97%。即使在 20 倍压缩比下,OCR 精度仍保持在 60% 左右。这在历史长上下文压缩和 LLM 中的记忆遗忘机制等研究领域展现出巨大的潜力。此外,DeepSeek-OCR 也展现出极高的实用价值。在 OmniDocBench 上,它仅使用 100 个视觉 tokens 就超越了 GOT-OCR2.0(每页 256 个 tokens),并且在使用不到 800 个视觉 tokens 的情况下超越了 MinerU2.0(平均每页 6000 多个 tokens)。在生产环境中,DeepSeek-OCR 可以每天生成 20 万页以上规模的 LLM/VLM 训练数据(单台 A100-40G 处理器)。代码和模型权重可在 http://github.com/deepseek-ai/DeepSeek-OCR 公开访问。
1. Introduction
当前的 LLM 在处理长文本内容时面临着巨大的计算挑战,这是由于序列长度呈二次方缩放。作者探索了一种潜在的解决方案:利用视觉模态作为文本信息的有效压缩媒介。包含文档文本的单个图像可以使用比等效数字文本少得多的 tokens 来表示丰富的信息,这表明 通过视觉 tokens 进行光学压缩可以实现更高的压缩比。
这一洞见促使从 LLM 为中心的视角重新审视视觉语言模型 (VLM),重点关注 视觉编码器如何提升 LLM 处理文本信息的效率,而非仅仅关注人类擅长的基本 VQA。OCR 任务作为连接视觉和语言的中间模态,为这种视觉文本压缩范式提供了理想的测试平台,因为它们在视觉和文本表征之间建立了自然的 compression-decompression 映射,同时提供了量化的评估指标。
因此,作者提出了 DeepSeek-OCR,一个 VLM,旨在作为高效视觉文本压缩的初步概念验证。本文的工作主要有以下三个贡献:
- 对 vision-text token 压缩比进行了全面的定量分析。在 Fox 基准测试中,作者的方法在 9 − 10 × 9-10\times 9−10× 文本压缩率下实现了 96% 以上的 OCR 解码精度,在 10 − 12 × 10-12\times 10−12× 压缩率下实现了 ∼90% 的解码精度,在 20 × 20\times 20× 压缩率下实现了 ∼60% 的解码精度(考虑到输出结果与真实结果之间的格式差异,实际精度甚至更高),如
Fig.1 (a)所示。结果表明,紧凑型语言模型可以有效地学习解码压缩的视觉表征,这表明更大规模的 LLM 可以通过适当的预训练设计轻松获得类似的能力; - 引入了
DeepEncoder一种新颖的架构,即使在 高分辨率输入下也能保持较低的激活记忆和最少的视觉 tokens。它通过一个 16 × 16\times 16× 卷积压缩器串联窗口注意力和全局注意力编码器组件。这种设计确保窗口注意力组件处理大量的视觉 tokens,而压缩器在视觉 tokens 进入密集全局注意力组件之前对其进行精简,从而实现有效的记忆和 tokens 压缩; - 基于
DeepEncoder和DeepSeek3B-MoE开发了DeepSeek-OCR。如Fig.1 (b)所示,它在 OmniDocBench 端到端模型中实现了最佳性能,同时使用了最少的视觉 token。此外,还为该模型配备了解析图表、化学式、简单几何图形和自然图像的功能,以进一步提升其实际应用。在生产环境中,DeepSeek-OCR 可以使用 20 个节点(每个节点配备 8 块 A100-40G GPU)每天为 LLM 或 VLM 生成 3300 万页数据;

综上所述,本研究初步探索了 如何在 LLM 中使用视觉模态作为高效的文本信息处理压缩媒介。通过 DeepSeek OCR,证明了 vision-text 压缩可以显著减少不同历史语境阶段的 token 数量 7 ∼ 20 × 7\sim20\times 7∼20×,为解决大型语言模型中的长语境挑战提供了一个有前景的方向。定量分析为 VLM token 分配优化提供了经验指导,所提出的 DeepEncoder 架构则展现了实际可行性和实际部署能力。尽管该范式目前仅以 OCR 作为概念验证,但它为重新思考如何协同结合视觉和语言模态来提升大规模文本处理和代理系统的计算效率开辟了新的可能性。
2. Related Works
2.1 Typical Vision Encoders in VLMs
当前的开源 VLM 采用三种主要类型的视觉编码器,如 Fig.2 所示。
- 以 Vary 为代表的双塔架构(使用两个不同分辨率):利用并行 SAM 编码器来增加用于高分辨率图像处理的视觉词汇参数。虽然提供了可控的参数和激活内存,但这种方法存在重大缺陷:它需要双重图像预处理,这会使部署复杂化,并使训练期间的编码器流水线并行性面临挑战;
- 以 InternVL2.0 为代表的基于图块的方法(文档切块):通过将图像分成小图块进行并行计算来处理图像,从而减少高分辨率设置下的激活内存。虽然能够处理极高的分辨率,但由于其本机编码器分辨率通常较低(低于 512 × 512 512\times512 512×512),这种方法具有明显的局限性,导致大图像过度碎片化并产生大量的视觉 tokens;
- 以 Qwen2-VL 为代表的自适应分辨率编码(自适应):采用 NaViT 范式,通过基于块的分割直接处理整幅图像,无需进行块并行化。虽然该编码器可以灵活地处理不同的分辨率,但由于激活内存消耗巨大可能导致 GPU 内存溢出,因此在处理大图像时面临巨大挑战,而且序列打包在训练过程中需要极长的序列长度。较长的视觉 tokens 会减慢推理的预填充和生成阶段的速度;

2.2. End-to-end OCR Models
OCR 尤其是文档解析任务,一直是图像到文本领域的热门话题。随着 VLM 的进步,大量端到端 OCR 模型应运而生,通过简化 OCR 系统,从根本上改变了传统的流水线架构(需要独立的检测和识别专家模型)。Nougat 首次在 arXiv 上将端到端框架应用于学术论文 OCR,展示了模型在处理密集感知任务方面的潜力;GOT-OCR2.0 扩展了 OCR2.0 的范围,涵盖了更多合成图像解析任务,并设计了一个兼顾性能和效率的 OCR 模型,进一步凸显了端到端 OCR 研究的潜力;Qwen-VL 系列、InternVL 系列及其衍生模型等通用视觉模型也在不断增强其文档 OCR 能力,以探索密集视觉感知的边界。然而,当前模型尚未解决的一个关键研究问题是:for a document containing 1000 words, how many vision tokens are at least needed for decoding?(对于包含 1000 个单词的文档,解码至少需要多少个视觉 tokens ?)这个问题对于研究 a picture is worth a thousand words(一图胜千言)的原理至关重要。
3. Methodology
3.1 Architecture
如 Fig.3 所示,DeepSeek-OCR 采用统一的 端到端 VLM 架构,由编码器和解码器组成。编码器 DeepEncoder 负责提取图像特征、tokenizing 以及压缩视觉表征;解码器用于根据图像标记和提示生成所需的结果。DeepEncoder 的参数约为 380M,主要由 80M 的 SAM-base 和 300M 的 CLIP-large 串联而成;解码器采用 3B MoE架构,激活参数为 570M。接下来将深入探讨模型组件、数据工程和训练技巧。

3.2 DeepEncoder
为了探索上下文光学压缩的可行性,需要一个视觉编码器,该编码器具备以下特点:1. 能够处理高分辨率图像;2. 高分辨率下激活值较低;3. 视觉 tokens 较少;4. 支持多种分辨率输入;5. 参数数量适中。然而如 Section 2.1 所述,目前的开源编码器无法完全满足这些条件。因此,自行设计了一种新型视觉编码器,名为 DeepEncoder。
3.2.1 Architecture of DeepEncoder
DeepEncoder 主要由两个组件组成:一个以 窗口注意力机制为主的视觉感知特征提取组件(a visual perception feature extraction component dominated by window attention),以及一个 具有密集全局注意力机制的视觉知识特征提取组件 (a visual knowledge feature extraction component with dense global attention)。为了借鉴前人工作的预训练收益,分别使用 SAM-base(patch-size 16)和 CLIP-large 作为这两个组件的主要架构。
对于 CLIP,删除了第一个 patch embedding 层,因为它的输入不再是图像而是来自前一个 pipeline 的输出 token。在这两个组件之间,借鉴 Wei 等人的工作 《Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models》 使用 2 层卷积模块对视觉 token 进行 16 × 16\times 16× 下采样。每个卷积层的 k e r n e l s i z e = 3 kernel size=3 kernelsize=3, s t r i d e = 2 stride=2 stride=2, p a d d i n g = 1 padding=1 padding=1, c h a n n e l s channels channels 数从 256 增加到 1024。
假设输入一个 1024 × 1024 1024\times1024 1024×1024 的图像,DeepEncoder 会将其分割成 1024 / 16 × 1024 / 16 = 4096 1024/16\times1024/16=4096 1024/16×1024/16=4096 个 patch token。由于编码器的前半部分以窗口注意力机制为主,且只有 80M 因此激活量尚可。在进入全局注意力机制之前,这 4096 个 token 经过了压缩模块,最终数量变为 4096 / 16 = 256 4096/16=256 4096/16=256,使得整体激活内存可控。

3.2.2. Multiple resolution support
假设有一张包含 1000 个光学字符的图像,想测试解码需要多少个视觉 tokens。这要求模型支持可变数量的视觉 tokens。也就是说 DeepEncoder 需要支持多种分辨率。
通过位置编码的动态插值来满足上述需求,并设计了多种分辨率模式用于同时进行模型训练,以实现单个 DeepSeek-OCR 模型支持多种分辨率的能力。如 Fig.4 所示,DeepEncoder 主要支持两种主要的输入模式:原生分辨率 (native resolution) 和 动态分辨率 (dynamic resolution),每种模式又包含多个子模式。

原生分辨率支持四种子模式:Tiny、Small、Base、Large,对应的分辨率和 token 数量分别为 512 × 512 ( 64 ) 512×512(64) 512×512(64)、 640 × 640 ( 100 ) 640×640(100) 640×640(100)、 1024 × 1024 ( 256 ) 1024×1024(256) 1024×1024(256) 和 1280 × 1280 ( 400 ) 1280×1280(400) 1280×1280(400)。由于 Tiny 和 Small 模式的分辨率相对较小,为了避免浪费视觉 token,图像处理时会直接调整原始形状;对于 Base 和 Large 模式,为了保持原始图像的长宽比,会将图像填充到相应的大小,填充后有效视觉token数量小于实际视觉token数量,计算公式为:
N v a l i d = ⌈ N a c t u a l × [ 1 − ( ( m a x ( w , h ) − m i n ( w , h ) ) / ( m a x ( w , h ) ) ) ] ⌉ \begin{equation} N_{valid}=\lceil N_{actual}\times[1-((max(w,h)-min(w,h))/(max(w,h)))]\rceil \end{equation} Nvalid=⌈Nactual×[1−((max(w,h)−min(w,h))/(max(w,h)))]⌉
其中 w w w 和 h h h 表示原始输入图像的宽度和高度。
动态分辨率可以由两种原生分辨率组成。例如,Gundam 模式由 n × 640 × 640 n\times640\times640 n×640×640 个 tiles(局部视图)和一个 1024 × 1024 1024\times1024 1024×1024 的全局视图组成。tiling 方法遵循 InternVL2.0。支持动态分辨率主要出于应用方面的考虑,尤其适用于超高分辨率输入(例如报纸图像)。tiling 是一种二次窗口注意力机制,可以有效地进一步减少激活内存。由于的原生分辨率相对较大,动态分辨率下图像不会过于碎片化(tiles 数量控制在 2 到 9 个范围内)。DeepEncoder 在 Gundam 模式下输出的视觉 token 数量为: n × 100 + 256 n\times100+256 n×100+256,其中 n n n 为 tiles 数量;对于宽和高均小于 640 的图像, n n n 设置为 0,即 Gundam 模式将降级为 Base 模式。
Gundam 模式与四种原生分辨率模式一起训练,以实现一个模型支持多种分辨率的目标。需要注意的是,Gundam-master 模式( 1024 × 1024 1024\times1024 1024×1024 局部视图 + 1280 × 1280 1280\times1280 1280×1280 全局视图)是通过在已训练好的 DeepSeek OCR 模型上继续训练获得的。这主要是为了平衡负载,因为 Gundam-master 的分辨率过大,一起训练会降低整体训练速度。
3.3 The MoE Decoder
解码器采用了 DeepSeekMoE,具体来说是 DeepSeek-3B-MoE。在推理过程中,该模型会激活 64 个路由专家中的 6 个和 2 个共享专家,激活参数约为 570M。3B DeepSeekMoE 非常适合以领域为中心(称之为 OCR)的 VLM 研究,因为它既拥有 3B 模型的表达能力,又拥有 500M 小型模型的推理效率。
解码器根据 DeepEncoder 压缩的潜在视觉 tokens 重建原始文本表示,如下所示:
f d e c : R n × d l a t e n t → R N × d t e x t ; X ^ = f d e c ( Z ) where n ≤ N \begin{equation} f_{dec}:\Bbb{R}^{n\times d_{latent}}\to\Bbb{R}^{N\times d_{text}};\hat{\mathbf{X}}=f_{dec}(\mathbf{Z}) \text{ where } n\leq N \end{equation} fdec:Rn×dlatent→RN×dtext;X^=fdec(Z) where n≤N
其中 Z ∈ R n × d l a t e n t \mathbf{Z}\in\mathbb{R}^{n\times d_{latent}} Z∈Rn×dlatent 是来自 DeepEncoder 的压缩潜在视觉 tokens, X ^ ∈ R N × d t e x t \hat{\mathbf{X}}\in\mathbb{R}^{N\times d_{text}} X^∈RN×dtext 是重构的文本表示。函数 f d e c f_{dec} fdec 表示一个非线性映射,可以通过 OCR 式训练由紧凑型语言模型有效地学习。可以合理地推测,通过专门的预训练优化,LLM 将能够更自然地整合这些功能。
3.4 Data Engine
作者为 DeepSeek-OCR 构建了复杂多样的训练数据,包括OCR 1.0数据,主要由场景图像OCR、文档 OCR 等传统OCR任务组成;OCR 2.0数据,主要包括针对复杂人工图像的解析任务,例如常见图表、化学式、平面几何解析数据;通用视觉数据,主要用于为DeepSeek OCR注入一定的通用图像理解能力,并保留通用视觉接口。
3.4.1 OCR 1.0 data
文档数据是 DeepSeek-OCR 的重中之重。从互联网上收集了约 100 种语言的 3000 万页 PDF 数据,其中中文和英文约占 2500 万页,其他语言约占 500 万页。针对这些数据,创建了两种类型的标注:粗标注 和 细标注。
粗标注使用 fitz 算法直接从全数据集中提取,旨在训练模型识别光学文本,尤其是小语种的文本。
细标注包含中文和英文各 200 万页,分别使用先进的排版模型(例如 PP-DocLayout)和 OCR 模型(例如 MinuerU 和 GOT-OCR2.0)进行标注,构建检测和识别交错数据。
对于小语种,在检测部分发现排版模型具有一定的泛化能力;在识别部分,使用 fitz 创建小块数据来训练 GOT-OCR2.0,然后使用训练好的模型对经过布局处理的小块进行标注,利用模型飞轮创建了 60 万个数据样本。
在 DeepSeek OCR 的训练过程中,通过不同的提示区分粗标注和细标注。细标注图文对的 ground truth 如 Fig.5 所示。还收集了 3M Word 数据,通过直接提取内容来构建高质量的无布局图文对。这些数据主要为公式和 HTML 格式的表格提供了便利。此外,还选取了一些开源数据作为补充。

对于自然场景 OCR,模型主要支持 中文 和 英文。图像数据来源来自 LAION 和 Wukong,使用 PaddleOCR 进行标注,中文和英文数据样本各 10M。与文档 OCR 类似,自然场景 OCR 也可以通过提示控制是否输出检测框。
3.4.2 OCR 2.0 data
遵循 GOT-OCR2.0 的规范,将图表、化学式和平面几何解析数据统称为 OCR 2.0 数据。对于图表数据,遵循 OneChart 的规范,使用 pyecharts 和 matplotlib 渲染 1000 万张图片,主要包含常用的折线图、条形图、饼图和复合图。
将图表解析定义为图像到 HTML 表格的转换任务,如 Fig.6 (a) 所示。对于化学式,使用 PubChem 的 SMILES 格式作为数据源,并使用 RDKit 将其渲染成图像,构建了 500 万个图文对。对于平面几何图像,遵循 Slow Perception 的生成方法。具体而言,使用感知尺尺寸为 4 来对每条线段进行建模。为了增加渲染数据的多样性,引入了几何平移不变的数据增强,即在原始图像中平移相同的几何图像,使其与在坐标系中心位置绘制的相同 ground truth 相对应。在此基础上,构建了共1M个平面几何解析数据,如 Fig.6 (b)所示。

3.4.3 General vision data
DeepEncoder 可以受益于 CLIP 的预训练增益,并且拥有足够的参数来整合通用视觉知识。因此也为 DeepSeek-OCR 准备了一些相应的数据。沿用 DeepSeek-VL2 的思路,为字幕、检测和基础(grounding)等任务生成了相关数据。DeepSeek-OCR 并非通用的视觉语言模型 (VLM),这部分数据仅占总数据的 20%。引入此类数据主要是为了保留通用视觉接口,以便对模型和通用视觉任务感兴趣的研究人员能够在未来方便地推进他们的工作。
3.4.4 Text-only data
为了保证模型的语言能力,引入了10%的内部纯文本预训练数据,所有数据处理成 8192 个 token 的长度,这也是 DeepSeek-OCR 的序列长度。在训练 DeepSeek-OCR 时,OCR 数据占70%,通用视觉数据占20%,纯文本数据占10%。
3.5. Training Pipelines
训练流程非常简单,主要包含两个阶段:a). 独立训练 DeepEncoder;b). 训练 DeepSeek-OCR。需要注意的是,Gundam-master 模式是通过在预训练好的 DeepSeek-OCR 模型上继续训练 6M 采样数据获得的。由于训练协议与其他模式相同,在此省略详细描述。
3.5.1. Training DeepEncoder
效仿 Vary,利用紧凑型语言模型并使用下一个 token 预测框架来训练 DeepEncoder。在此阶段,使用上述所有 OCR 1.0 和 2.0 数据,以及从 LAION 数据集中采样的 1 亿个通用数据。所有数据均训练 2 个 epoch,batch size 为 1280,使用 AdamW 优化器和余弦退火调度器,学习率为 5e-5。训练序列长度为 4096。
3.5.2. Training DeepSeek-OCR
DeepEncoder 准备就绪后,使用 Section 3.4 中提到的数据训练 DeepSeek-OCR,整个训练过程在 HAI-LLM 平台上进行。整个模型采用流水线并行 (PP),分为 4 个部分,DeepEncoder 占两部分,解码器占两部分。
- 对于 DeepEncoder:将 SAM 和压缩器视为 vision tokenizer ,放置在 PP0 中并冻结其参数;而将 CLIP 部分视为输入嵌入层,放置在 PP1 中,不冻结权重进行训练;
- 对于语言模型部分:由于 DeepSeek3B-MoE 共有 12 层,因此在 PP2 和 PP3 上各放置 6 层。使用 20 个节点(每个节点配备 8 块 A100-40G GPU)进行训练,数据并行度 (DP) 为 40,全局 batch_size 为 640。
使用 AdamW 优化器,采用基于步长的调度程序,初始学习率为 3e-5。对于纯文本数据,训练速度为 90B 个 tokens/day,而对于多模态数据,训练速度为 70B 个 tokens/day。
4. Evaluation
4.1 Vision-text Compression Study
选取 Fox 基准数据集来验证 DeepSeek-OCR 对富文本文档的 compression-decompression 能力,以初步探索上下文光学压缩的可行性及其边界。使用 Fox 的英文文档部分,使用 DeepSeek-OCR 的分词器对 ground truth 文本进行分词(词汇量约为 129k),并选取包含 600-1300 个分词的文档进行测试,恰好为 100 页。由于文本分词数量不多,只需测试 Tiny 和 Small 模式下的性能,其中 Tiny 模式对应 64 个分词,Small 模式对应 100 个分词。使用不带布局的提示符 “<image>\nFree OCR.” 来控制模型的输出格式。尽管如此,输出格式仍然无法完全匹配 Fox 基准数据集,因此实际性能会略高于测试结果,如 Table.2 所示。
- 压缩率 ~ 10 × 10\times 10×:模型的解码精度可以达到约97%,这是一个非常有前景的结果。未来或许可以通过文本转图像的方法实现近 10 倍的无损上下文压缩;
- 压缩率 > 10 × >10\times >10×:性能开始下降,这可能有两个原因:一是 长文档的布局变得更加复杂,二是 长文本在512×512或640×640分辨率下会变得模糊。第一个问题可以通过将文本渲染到单个布局页面上来解决,作者认为第二个问题将成为遗忘机制的一个特性;
- 压缩率~ 20 × 20\times 20×:发现精度仍然可以接近60%;
这些结果表明,光学上下文压缩是一个非常有前景且值得研究的方向,而且这种方法不会带来任何开销,因为它可以利用 VLM 基础设施,而多模态系统本身就需要额外的视觉编码器。

4.2. OCR Practical Performance
DeepSeek-OCR 不仅仅是一个实验模型,它具有强大的实用能力,并且可以构建用于 LLM/VLM 预训练的数据。为了量化 OCR 性能,作者在 OmniDocBench 上测试了 DeepSeek OCR,结果如 Table.3 所示,DeepSeek-OCR 表现如下:
- 仅需要 100 个视觉 tokens( 640 × 640 640\times640 640×640 分辨率):超越了使用 256 个 tokens 的 GOT-OCR2.0;
- 使用 400 个 tokens(285 个有效 tokens, 1280 × 1280 1280\times1280 1280×1280 分辨率):在该基准上达到了与最先进技术相当的性能;
- 使用不到 800 个 tokens(Gundam 模式):表现优于需要近 7,000 个视觉 tokens 的 MinerU2.0;
这些结果表明,DeepSeek-OCR 模型在实际应用中非常强大,并且由于更高的 tokens 压缩率,它享有更高的研究上限。

如 Table.4 所示,某些类别的文档只需很少的 token 即可达到令人满意的性能:
- 幻灯片:只需要64个视觉 token;
- 书籍和报告类文档:仅需100个视觉token即可获得良好的性能。结合 Section 4.1 的分析,这可能是因为这些文档类别中的文本 token 大多在1000个以内,这意味着视觉 token 的压缩率不超过10倍;
- 报纸类文档:由于报纸中的文本 token 数量为 4000-5000个,远远超过了其他模式的10倍压缩率,因此需要使用 Gundam 甚至 Gundam-master 模式才能达到可接受的编辑距离;
这些实验结果进一步揭示了上下文光学压缩的边界,可为VLM中的视觉token优化以及LLM中的上下文压缩和遗忘机制研究提供有效参考。

4.3 Qualitative Study
4.3.1 Deep parsing
DeepSeek-OCR 同时具备布局和 OCR 2.0 的功能,使其能够通过二次模型调用进一步解析文档中的图像,作者称之为 “deep parsing”。如 Fig.7,8,9,10 所示,模型只需一个统一的提示,即可对图表、几何图形、化学式甚至自然图像进行深度解析。
| Fig.7 | Fig.8 |
|---|---|
![]() | ![]() |
| Fig.9 | Fig.10 |
|---|---|
![]() | ![]() |
4.3.2. Multilingual recognition
互联网上的 PDF 数据不仅包含中文和英文,还包含大量的多语言数据,这在训练 LLM 时至关重要。对于 PDF 文档,DeepSeek OCR 可以处理近 100 种语言。与中文和英文文档一样,多语言数据也支持排版和非排版 OCR 格式。可视化结果如 Fig.11 所示,选择了阿拉伯语和僧伽罗语来演示结果。

4.3.3. General vision understanding
作者还为 DeepSeek-OCR 提供了一定程度的通用图像理解能力,相关可视化结果如 Fig.12 所示。

5. Discussion
本文的工作是对视觉文本压缩边界的初步探索,旨在探究解码 N N N 个文本标记需要多少个视觉 tokens。初步结果令人鼓舞:DeepSeek-OCR 在约 10 × 10\times 10× 压缩率下实现了近乎无损的 OCR 压缩,而 20 × 20\times 20× 压缩仍能保持 60% 的准确率。这些发现为未来的应用指明了方向,例如在多轮对话中对超过 k k k轮的对话历史进行光学处理,以实现 10 × 10\times 10× 的压缩效率。
对于较旧的上下文,可以逐步缩小渲染图像的尺寸以进一步减少 tokens 消耗。这一假设的灵感源于人类记忆随时间衰减与视觉感知随空间距离衰减之间的自然相似性,两者都表现出类似的渐进式信息丢失模式,如 Fig.13 所示。通过结合这些机制,上下文光学压缩方法能够实现一种与生物遗忘曲线相似的记忆衰减形式:近期信息保持高保真度,而远期记忆则会随着压缩比的提高而自然消退。

虽然初步探索展现了可扩展超长上下文处理的潜力,即近期上下文能够保持高分辨率,而旧上下文消耗更少的资源,但作者承认这项工作尚处于早期阶段,需要进一步研究。方法提出了一条通往理论上无限上下文架构的道路,该架构能够在信息保留和计算约束之间取得平衡,但此类 vision-text 压缩系统的实际意义和局限性值得在未来的研究中深入探讨。
6. Conclusion
在本技术报告中,作者提出了DeepSeek-OCR模型,并初步验证了该模型在上下文光学压缩方面的可行性,证明该模型能够有效地从少量的视觉 token 中解码出超过10倍数量的文本token。作者相信这一发现将有助于未来 VLM 和 LLM 的发展。此外,DeepSeek-OCR 是一个实用性极强的模型,能够进行大规模预训练数据生产,是LLM不可或缺的助手。当然,仅靠OCR不足以完全验证真正的上下文光学压缩,未来作者将计划在数字-光学文本的交错预训练(digital-optical text interleaved pretraining)、大海捞针测试等评估中开展此类工作。从另一个角度来看,光学上下文压缩仍然具有巨大的研究和改进空间,代表着一个充满希望的新方向。




