深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩
目录
- 一、论文概述
- 二、论文脑图
- 三、论文总结
- 1.研究背景
- 2.模型方法
- 2.1整体架构
- 2.2DeepEncoder:核心编码器设计
- 2.3训练数据
- 2.4训练流程
- 3. 实验评估:性能与能力验证
- 3.1Fox 基准:视觉 - 文本压缩性能
- 3.2OmniDocBench:实际 OCR 性能
- 4.定性研究
- 5.讨论与结论
- 6. 关键问题
- 6.1问题 1
- 6.2问题 2
- 6.3问题 3
-
DeepSeek-OCR 论文:DeepSeek-OCR: Contexts Optical Compression(上下文光学压缩)
-
论文:https://arxiv.org/abs/2510.18234(2025.10)
-
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
-
模型下载:DeepSeek-OCR · 模型库
一、论文概述
DeepSeek-OCR 是 DeepSeek-AI 提出的用于探索视觉 2D 映射压缩长上下文可行性的视觉语言模型(VLM),由DeepEncoder(核心编码器,~380M 参数) 和DeepSeek3B-MoE-A570M 解码器(激活 570M 参数) 构成;其核心优势在于 DeepEncoder 通过串联窗口注意力(SAM-base)、16× 卷积压缩器与全局注意力(CLIP-large),实现高分辨率输入下的低激活内存与高压缩比,实验显示在 Fox 基准上压缩比 < 10× 时 OCR 精度达 97% 、20× 时仍保持 60% 精度,在 OmniDocBench 上仅用 100 视觉 token 超越 GOT-OCR2.0(256token)、<800 视觉 token 超越 MinerU2.0(6000+token),同时具备深度解析(图表 / 化学式 / 几何)、近 100 种语言识别能力,生产级场景下单 A100-40G 日生成 200k + 页 LLM/VLM 训练数据,为 LLM 长上下文处理与记忆遗忘机制研究提供新方向。
二、论文脑图

三、论文总结
1.研究背景
- LLM 长文本处理痛点:现有 LLM 处理长文本时,计算量随序列长度呈二次缩放,资源消耗巨大。
- 核心创新思路:利用视觉模态作为文本高效压缩媒介 —— 单张文档图像的视觉 token 数量远少于等效数字文本,可实现更高压缩比。
- 测试选择:OCR 任务(视觉 - 语言中间模态),天然具备 “视觉→文本” 的压缩 - 解压缩映射,且支持量化评估(如精度、编辑距离)。
- 三大核心贡献:
- 首次量化分析视觉 - 文本 token 压缩比,明确不同压缩比下的 OCR 精度边界;
- 提出DeepEncoder,实现高分辨率输入下的低激活内存与少视觉 token;
- 构建 DeepSeek-OCR,在 OmniDocBench 上以最少视觉 token 达成 SOTA,且具备多任务能力。
2.模型方法
2.1整体架构
DeepSeek-OCR 为端到端 VLM 架构,分为编码器(DeepEncoder)与解码器(DeepSeek3B-MoE),具体结构如下:
| 组件 | 核心功能 | 关键参数 / 设计 |
|---|---|---|
| DeepEncoder | 图像特征提取 + 视觉 token 压缩 | ~380M 参数(80M SAM+300M CLIP) |
| 16× 卷积压缩器 | 连接 SAM 与 CLIP,减少 token | 2 层 3×3 核,步长 2, padding1 |
| 解码器 | 视觉 token→文本生成 | 3B MoE,激活 570M 参数(6/64 专家 + 2 共享) |
2.2DeepEncoder:核心编码器设计
- 架构优势:解决现有 VLMs 编码器(如 Vary、InternVL2.0、Qwen2-VL)“高激活、多 token、部署难” 问题,关键设计包括:
- 串联双注意力模块:窗口注意力(SAM-base)处理多 patch 感知,全局注意力(CLIP-large)提取知识,兼顾细节与全局;
- 16× token 压缩:在双模块间插入卷积压缩器,将 SAM 输出的多 token(如 1024×1024 图像→4096token)压缩至 256token,控制全局注意力激活内存。
- 多分辨率支持:通过位置编码动态插值,实现单模型适配多场景,具体模式如下:
| 模式类型 | 子模式 | 原生分辨率 | 视觉 token 数 | 处理方式 |
|---|---|---|---|---|
| 原生分辨率 | Tiny | 512×512 | 64 | 直接 resize |
| Small | 640×640 | 100 | 直接 resize | |
| Base | 1024×1024 | 256 | 保持宽高比,padding | |
| Large | 1280×1280 | 400 | 保持宽高比,padding | |
| 动态分辨率 | Gundam | 640+1024 | n×100+256 | 分块(n∈[2:9])+ 全局视图 |
| Gundam-M | 1024+1280 | n×256+400 | 预训练后续训,适配超高清 |
2.3训练数据
- OCR 1.0 数据:30M PDF(100 语言,中 / 英 25M + 其他 5M,含粗标注 / 细标注)、10M 场景 OCR(中 / 英各 5M,LAION/Wukong 来源);
- OCR 2.0 数据:10M 图表(pyecharts/matplotlib 生成,→HTML 表格)、5M 化学式(PubChem SMILES→RDKit 渲染)、1M 平面几何(Slow Perception 生成,含平移增强);
- 通用视觉数据:占比 20%,用于保留通用视觉接口(如 caption / 检测);
- 纯文本数据:占比 10%,8192token 长度,保障语言生成能力。
2.4训练流程
- 阶段 1:训练 DeepEncoder
- 优化器:AdamW,学习率 5e-5,余弦退火调度;
- 数据:OCR1.0/2.0 + 100M LAION 数据,2 轮训练,1280 批大小,4096 序列长度。
- 阶段 2:训练整体模型
- 部署:HAI-LLM 平台,20 节点(每节点 8×A100-40G),PP 拆分 4 部分(DeepEncoder 占 2,解码器占 2);
- 优化器:AdamW,初始学习率 3e-5,全局批大小 640;
- 训练速度:纯文本 90B token / 天,多模态 70B token / 天。
3. 实验评估:性能与能力验证
3.1Fox 基准:视觉 - 文本压缩性能
- 测试设置:选取 Fox 基准中 600-1300token 的英文文档(100 页),测试 DeepEncoder 的 Tiny(64token)与 Small(100token)模式,使用提示词 prompt 不指定排版来控制模型的输出格式,不过输出格式仍然无法完全符合 Fox 标准,所以实际效果会略高于测试结果。
- prompt 为:
<image>\nFree OCR.
-
文本标记(Text Tokens)表示使用DeepSeek-OCR的分词器对真实文本进行分词后的标记数。
-
Vision Tokens=64或100分别表示在将输入图像调整大小为512×512和640×640后,DeepEncoder输出的视图标记数。

-
如表所示,在10倍压缩比下,模型的解码精度可以达到约97%,是一个非常有前景的结果。在未来,有可能通过文本到图像的方法实现近乎10倍的无损上下文压缩。当压缩比超过10倍时,性能开始下降,可能有两个原因:一是长文档的排版更加复杂,另一个原因可能是长文本在512×512或640×640分辨率下变得模糊。第一个问题可以通过将文本渲染到单页布局来解决,而我们相信第二个问题将会是遗忘机制的一个特点。在将词元压缩近 20 倍时,我们发现精确率仍然可以达到 60%。这些结果表明,光学语境压缩是有效的。
-
这显然是一个很有前景的研究方向,而且该方法不需要任何开销,因为其可以利用VLM基础设施,而多模态系统本身就需要一个额外的视觉编码器。
3.2OmniDocBench:实际 OCR 性能
-
DeepSeek-OCR 不仅是一个实验性模型,它还具有很强的实用能力,并且可以为大型语言模型/视觉语言模型的预训练构建数据。为了量化OCR性能,我们在提出的OmniDocBench上测试了DeepSeek-OCR,实验结果见下表。

-
使用OmniDocBench来测试DeepSeek-OCR在实际文档解析任务中的性能。表中的所有指标都是编辑距离,数值越小表示性能越好。“Tokens”表示每页使用的平均视图tokens,“†²⁰⁰dpi”表示使用fitz将原始图像插值为200dpi。对于DeepSeek-OCR模型,“Tokens”列中的括号内值表示有效的视图tokens。
-
实验表明只需100个视图标记(640×640分辨率),DeepSeek-OCR的性能就超越了使用256个标记的GOT-OCR2.0;使用400个标记(285个有效标记,1280×1280分辨率),它在该基准上的性能与当前最佳方法持平。 使用不到800个标记(高达Gundam模式),DeepSeek-OCR的性能就超越了需要近7,000个视图标记的MinerU2.0。 这些结果充分证明了我们的DeepSeek-OCR模型在实际应用中的强大能力,同时更高的标记压缩率也意味着它拥有更高的研究潜力。
-
一些文档类别只需要很少的标记就可以达到令人满意的效果,例如幻灯片,只需要64个视图标记。对于图书和报告类文档,DeepSeek-OCR 只需要100个视图标记就能取得良好的效果。结合分析,这可能是因为这些文档类别中的大多数文本标记都在1,000个以内,意味着视图标记压缩比不超过10×。对于报纸,需要使用 Gundam 或甚至 Gundam-master 模式才能达到可接受的编辑距离,因为报纸中的文本标记数量为 4-5,000,远超其他模式的10×压缩比。这些实验结果进一步证明了视图上下文光学压缩的边界,这可能为视觉标记在 VLMs 和上下文压缩、LLMs 中的遗忘机制优化研究提供有效的参考。
4.定性研究
- 深度解析:DeepSeek-OCR 同时具备排版识别和 OCR 2.0 能力,可以通过二次模型调用进一步解析文档中的图像,我们称之为“深度解析”。模型可以对图表、几何、化学方程乃至自然图像进行深度解析,只需要一个统一的提示。(即支持图表→HTML 表格、化学式→SMILES、平面几何→结构化描述(如线段 / 坐标))。
- 多语言识别:支持近 100 种语言,含阿拉伯语、僧伽罗语等小语种,可输出带布局 / 无布局格式;
- 通用视觉理解:保留图像描述、目标检测、grounding 能力(如定位 “11-2=”“the teacher”)。
5.讨论与结论
- 讨论
- DeepSeek-OCR是对 vision-text 压缩能力的初步探索,研究需要多少 vision 模型的输出才能解码出 𝐴 个文本 token。初步结果显示是令人鼓舞的:DeepSeek-OCR 在大约 10 倍压缩比的情况下实现了近乎无损的 OCR 压缩,20 倍压缩比下仍然能保持 60% 的准确率。这些发现暗示着未来可以在多轮对话中对对话历史进行光学处理(optical processing),以实现 10 倍的压缩效率。
- DeepSeek-OCR初步探索显示了可扩展的超长上下文处理的潜力,其中最近的上下文保留高分辨率,而较旧的上下文消耗更少的资源,但这还只是早期的工作,需要进一步的研究。该方法提出了一条通往理论上无限大的上下文架构的道路,可以在信息保留和计算限制之间取得平衡,不过对未来研究中这种vision-text压缩系统的实际影响和局限性进行更深入的探讨是很有必要的。
- 结论
- 在技术报告中,DeepSeek-OCR 初步验证了通过该模型实现图像压缩的可行性,证明该模型可以有效解码 vision token 数量远少于文本 token 数量级的文本。这一发现将有助于未来 VLMs 和 LLMs 的发展。此外,DeepSeek-OCR 是一种高度实用的模型,可用于大规模预训练数据生产,是 LLMs 不可或缺的辅助工具。当然,仅 OCR 无法充分验证真正的图像压缩效果,在未来进行数字-图像文本交错预训练、搜寻测试等评估。从另一个角度看,图像上下文压缩仍然有很大的研究和改进空间,这代表着一个充满希望的新方向。
- 学术意义:验证上下文光学压缩可行性,为 LLM 长上下文处理提供新路径 —— 可将多轮对话历史渲染为图像,通过逐步降低分辨率模拟人类记忆衰减(近期高分辨率高保真,远期高压缩比低保真)。
- 实用价值:生产级 LLM/VLM 训练数据生成能力,单 A100-40G 日生成 200k + 页,20 节点日生成 33M 页。
- 未来方向:开展 “数字 - 光学文本交错预训练”“大海捞针测试”,进一步验证上下文压缩的泛化性。
6. 关键问题
6.1问题 1
DeepEncoder 在架构设计上如何解决现有 VLMs 编码器的 “高激活、多 token” 痛点,以适配高分辨率输入?
DeepEncoder 通过 “串联模块 + 针对性压缩” 设计解决痛点:
- 双注意力分工:先用SAM-base(80M 参数,窗口注意力) 处理高分辨率图像的多 patch 感知(如 1024×1024 图像→4096token),窗口注意力仅关注局部区域,激活内存可控;
- 16× 卷积压缩:在 SAM 与后续模块间插入2 层 3×3 卷积压缩器(步长 2,padding1,通道 256→1024),将 4096token 压缩至 256token,大幅减少后续模块的输入 token 数;
- 全局注意力轻量化:后续CLIP-large(300M 参数,全局注意力) 仅处理 256token,避免传统全局注意力因 token 过多导致的高激活问题;
- 多分辨率适配:通过位置编码动态插值支持原生(512-1280×)与动态(分块 + 全局视图)分辨率,无需对超高清图像过度分块(如报纸图像分块 n∈[2:9]),避免 token 激增。
6.2问题 2
DeepSeek-OCR 的视觉 - 文本压缩性能存在哪些核心边界?实验中如何通过设计验证这些边界?
核心边界与验证方式如下:
- 压缩比 - 精度边界:压缩比 < 10× 时精度~97%(近无损),10-12× 时~90%,20× 时降至~60%;
- 验证设计:在 Fox 基准选取 600-1300token 的英文文档(100 页),测试 DeepEncoder 的 Tiny(64token)与 Small(100token)模式,通过 “文本 token 数 / 视觉 token 数” 计算压缩比,对比不同压缩比下的 OCR 精度;
- 文档类型 - token 需求边界:简单文档(如幻灯片)仅需 64token 即可达标,复杂文档(如报纸,4-5k 文本 token)需 Gundam 模式(<800token);
- 验证设计:在 OmniDocBench 测试不同文档类型(书籍 / 幻灯片 / 报纸等),记录各类型达标所需的最小视觉 token 数(如 Table4 显示,报纸需 Gundam 模式编辑距离才降至 0.122);
- 分辨率 - 文本清晰度边界:512/640 分辨率下长文本易模糊,导致压缩比 > 10× 时精度下降;
- 验证设计:对比不同分辨率(512×512 vs 1280×1280)下的 OCR 精度,发现 1280×1280(Large 模式,400token)在压缩比 15× 时精度仍保持 85%+,而 512×512(Tiny 模式)同压缩比下精度仅 72%。
6.3问题 3
DeepSeek-OCR 除 OCR 精度外,在实际应用中体现出哪些核心价值?技术上如何支撑这些价值?
核心应用价值与技术支撑如下:
- 大规模 LLM/VLM 训练数据生成:单 A100-40G 日生成 200k + 页,20 节点日生成 33M 页;
- 技术支撑:端到端架构无需分 “检测 - 识别” 多阶段,训练后模型推理速度快;DeepEncoder 多分辨率支持适配不同格式文档(PDF / 扫描件 / 场景图),数据覆盖近 100 种语言,可批量生成带标注数据。
- 复杂文档深度解析:支持图表、化学式、几何图形的结构化提取(如图表→HTML、化学式→SMILES);
- 技术支撑:训练数据包含 10M 图表 + 5M 化学式 + 1M 几何数据(OCR2.0 数据),解码器通过 MoE 架构的专家分工(如专门处理结构化输出的专家),实现跨模态映射精度提升。
- 低资源场景部署效率:用更少视觉 token 实现高性能(如 < 800token 超越 MinerU2.0 的 6000+token);
- 技术支撑:DeepEncoder 的高压缩比(10-20×)减少视觉 token 传输与存储成本;解码器为 MoE 架构(激活 570M 参数),推理效率接近 500M 小模型,适配中端 GPU(如 A10)部署。
