当前位置：首页 > news >正文

深度解读 DeepSeek-OCR 论文：通过视觉模态实现高效文本压缩

news 2025/11/11 15:57:07

一、论文概述
二、论文脑图
三、论文总结
- 1.研究背景
- 2.模型方法
- - 2.1整体架构
  - 2.2DeepEncoder：核心编码器设计
  - 2.3训练数据
  - 2.4训练流程
- 3. 实验评估：性能与能力验证
- - 3.1Fox 基准：视觉 - 文本压缩性能
  - 3.2OmniDocBench：实际 OCR 性能
- 4.定性研究
- 5.讨论与结论
- 6. 关键问题
- - 6.1问题 1
  - 6.2问题 2
  - 6.3问题 3

DeepSeek-OCR 论文：DeepSeek-OCR: Contexts Optical Compression（上下文光学压缩）
论文：https://arxiv.org/abs/2510.18234（2025.10）
GitHub：https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
模型下载：DeepSeek-OCR · 模型库

一、论文概述

DeepSeek-OCR 是 DeepSeek-AI 提出的用于探索视觉 2D 映射压缩长上下文可行性的视觉语言模型（VLM），由DeepEncoder（核心编码器，~380M 参数） 和DeepSeek3B-MoE-A570M 解码器（激活 570M 参数） 构成；其核心优势在于 DeepEncoder 通过串联窗口注意力（SAM-base）、16× 卷积压缩器与全局注意力（CLIP-large），实现高分辨率输入下的低激活内存与高压缩比，实验显示在 Fox 基准上压缩比 < 10× 时 OCR 精度达 97% 、20× 时仍保持 60% 精度，在 OmniDocBench 上仅用 100 视觉 token 超越 GOT-OCR2.0（256token）、<800 视觉 token 超越 MinerU2.0（6000+token），同时具备深度解析（图表 / 化学式 / 几何）、近 100 种语言识别能力，生产级场景下单 A100-40G 日生成 200k + 页 LLM/VLM 训练数据，为 LLM 长上下文处理与记忆遗忘机制研究提供新方向。

二、论文脑图

在这里插入图片描述

三、论文总结

1.研究背景

LLM 长文本处理痛点：现有 LLM 处理长文本时，计算量随序列长度呈二次缩放，资源消耗巨大。
核心创新思路：利用视觉模态作为文本高效压缩媒介 —— 单张文档图像的视觉 token 数量远少于等效数字文本，可实现更高压缩比。
测试选择：OCR 任务（视觉 - 语言中间模态），天然具备 “视觉→文本” 的压缩 - 解压缩映射，且支持量化评估（如精度、编辑距离）。
三大核心贡献：
1. 首次量化分析视觉 - 文本 token 压缩比，明确不同压缩比下的 OCR 精度边界；
2. 提出DeepEncoder，实现高分辨率输入下的低激活内存与少视觉 token；
3. 构建 DeepSeek-OCR，在 OmniDocBench 上以最少视觉 token 达成 SOTA，且具备多任务能力。

2.模型方法

2.1整体架构

DeepSeek-OCR 为端到端 VLM 架构，分为编码器（DeepEncoder）与解码器（DeepSeek3B-MoE），具体结构如下：

组件	核心功能	关键参数 / 设计
DeepEncoder	图像特征提取 + 视觉 token 压缩	~380M 参数（80M SAM+300M CLIP）
16× 卷积压缩器	连接 SAM 与 CLIP，减少 token	2 层 3×3 核，步长 2， padding1
解码器	视觉 token→文本生成	3B MoE，激活 570M 参数（6/64 专家 + 2 共享）

2.2DeepEncoder：核心编码器设计

架构优势：解决现有 VLMs 编码器（如 Vary、InternVL2.0、Qwen2-VL）“高激活、多 token、部署难” 问题，关键设计包括：
1. 串联双注意力模块：窗口注意力（SAM-base）处理多 patch 感知，全局注意力（CLIP-large）提取知识，兼顾细节与全局；
2. 16× token 压缩：在双模块间插入卷积压缩器，将 SAM 输出的多 token（如 1024×1024 图像→4096token）压缩至 256token，控制全局注意力激活内存。
多分辨率支持：通过位置编码动态插值，实现单模型适配多场景，具体模式如下：

模式类型	子模式	原生分辨率	视觉 token 数	处理方式
原生分辨率	Tiny	512×512	64	直接 resize
	Small	640×640	100	直接 resize
	Base	1024×1024	256	保持宽高比，padding
	Large	1280×1280	400	保持宽高比，padding
动态分辨率	Gundam	640+1024	n×100+256	分块（n∈[2:9]）+ 全局视图
	Gundam-M	1024+1280	n×256+400	预训练后续训，适配超高清

2.3训练数据

OCR 1.0 数据：30M PDF（100 语言，中 / 英 25M + 其他 5M，含粗标注 / 细标注）、10M 场景 OCR（中 / 英各 5M，LAION/Wukong 来源）；
OCR 2.0 数据：10M 图表（pyecharts/matplotlib 生成，→HTML 表格）、5M 化学式（PubChem SMILES→RDKit 渲染）、1M 平面几何（Slow Perception 生成，含平移增强）；
通用视觉数据：占比 20%，用于保留通用视觉接口（如 caption / 检测）；
纯文本数据：占比 10%，8192token 长度，保障语言生成能力。

2.4训练流程

阶段 1：训练 DeepEncoder
- 优化器：AdamW，学习率 5e-5，余弦退火调度；
- 数据：OCR1.0/2.0 + 100M LAION 数据，2 轮训练，1280 批大小，4096 序列长度。
阶段 2：训练整体模型
- 部署：HAI-LLM 平台，20 节点（每节点 8×A100-40G），PP 拆分 4 部分（DeepEncoder 占 2，解码器占 2）；
- 优化器：AdamW，初始学习率 3e-5，全局批大小 640；
- 训练速度：纯文本 90B token / 天，多模态 70B token / 天。

3. 实验评估：性能与能力验证

3.1Fox 基准：视觉 - 文本压缩性能

测试设置：选取 Fox 基准中 600-1300token 的英文文档（100 页），测试 DeepEncoder 的 Tiny（64token）与 Small（100token）模式，使用提示词 prompt 不指定排版来控制模型的输出格式，不过输出格式仍然无法完全符合 Fox 标准，所以实际效果会略高于测试结果。
prompt 为：

<image>\nFree OCR.

文本标记(Text Tokens)表示使用DeepSeek-OCR的分词器对真实文本进行分词后的标记数。
Vision Tokens=64或100分别表示在将输入图像调整大小为512×512和640×640后，DeepEncoder输出的视图标记数。
如表所示，在10倍压缩比下，模型的解码精度可以达到约97%，是一个非常有前景的结果。在未来，有可能通过文本到图像的方法实现近乎10倍的无损上下文压缩。当压缩比超过10倍时，性能开始下降，可能有两个原因：一是长文档的排版更加复杂，另一个原因可能是长文本在512×512或640×640分辨率下变得模糊。第一个问题可以通过将文本渲染到单页布局来解决，而我们相信第二个问题将会是遗忘机制的一个特点。在将词元压缩近 20 倍时，我们发现精确率仍然可以达到 60%。这些结果表明，光学语境压缩是有效的。
这显然是一个很有前景的研究方向,而且该方法不需要任何开销,因为其可以利用VLM基础设施,而多模态系统本身就需要一个额外的视觉编码器。

3.2OmniDocBench：实际 OCR 性能

DeepSeek-OCR 不仅是一个实验性模型，它还具有很强的实用能力，并且可以为大型语言模型/视觉语言模型的预训练构建数据。为了量化OCR性能，我们在提出的OmniDocBench上测试了DeepSeek-OCR，实验结果见下表。
使用OmniDocBench来测试DeepSeek-OCR在实际文档解析任务中的性能。表中的所有指标都是编辑距离，数值越小表示性能越好。“Tokens”表示每页使用的平均视图tokens，“†²⁰⁰dpi”表示使用fitz将原始图像插值为200dpi。对于DeepSeek-OCR模型，“Tokens”列中的括号内值表示有效的视图tokens。
实验表明只需100个视图标记(640×640分辨率)，DeepSeek-OCR的性能就超越了使用256个标记的GOT-OCR2.0；使用400个标记(285个有效标记，1280×1280分辨率)，它在该基准上的性能与当前最佳方法持平。使用不到800个标记（高达Gundam模式），DeepSeek-OCR的性能就超越了需要近7,000个视图标记的MinerU2.0。这些结果充分证明了我们的DeepSeek-OCR模型在实际应用中的强大能力，同时更高的标记压缩率也意味着它拥有更高的研究潜力。
一些文档类别只需要很少的标记就可以达到令人满意的效果，例如幻灯片，只需要64个视图标记。对于图书和报告类文档，DeepSeek-OCR 只需要100个视图标记就能取得良好的效果。结合分析，这可能是因为这些文档类别中的大多数文本标记都在1,000个以内，意味着视图标记压缩比不超过10×。对于报纸，需要使用 Gundam 或甚至 Gundam-master 模式才能达到可接受的编辑距离，因为报纸中的文本标记数量为 4-5,000，远超其他模式的10×压缩比。这些实验结果进一步证明了视图上下文光学压缩的边界，这可能为视觉标记在 VLMs 和上下文压缩、LLMs 中的遗忘机制优化研究提供有效的参考。

4.定性研究

深度解析：DeepSeek-OCR 同时具备排版识别和 OCR 2.0 能力，可以通过二次模型调用进一步解析文档中的图像，我们称之为“深度解析”。模型可以对图表、几何、化学方程乃至自然图像进行深度解析，只需要一个统一的提示。（即支持图表→HTML 表格、化学式→SMILES、平面几何→结构化描述（如线段 / 坐标））。
多语言识别：支持近 100 种语言，含阿拉伯语、僧伽罗语等小语种，可输出带布局 / 无布局格式；
通用视觉理解：保留图像描述、目标检测、grounding 能力（如定位 “11-2=”“the teacher”）。

5.讨论与结论

讨论
- DeepSeek-OCR是对 vision-text 压缩能力的初步探索，研究需要多少 vision 模型的输出才能解码出 𝐴 个文本 token。初步结果显示是令人鼓舞的：DeepSeek-OCR 在大约 10 倍压缩比的情况下实现了近乎无损的 OCR 压缩，20 倍压缩比下仍然能保持 60% 的准确率。这些发现暗示着未来可以在多轮对话中对对话历史进行光学处理（optical processing），以实现 10 倍的压缩效率。
- DeepSeek-OCR初步探索显示了可扩展的超长上下文处理的潜力，其中最近的上下文保留高分辨率，而较旧的上下文消耗更少的资源，但这还只是早期的工作，需要进一步的研究。该方法提出了一条通往理论上无限大的上下文架构的道路，可以在信息保留和计算限制之间取得平衡，不过对未来研究中这种vision-text压缩系统的实际影响和局限性进行更深入的探讨是很有必要的。
结论
- 在技术报告中，DeepSeek-OCR 初步验证了通过该模型实现图像压缩的可行性，证明该模型可以有效解码 vision token 数量远少于文本 token 数量级的文本。这一发现将有助于未来 VLMs 和 LLMs 的发展。此外，DeepSeek-OCR 是一种高度实用的模型，可用于大规模预训练数据生产，是 LLMs 不可或缺的辅助工具。当然，仅 OCR 无法充分验证真正的图像压缩效果，在未来进行数字-图像文本交错预训练、搜寻测试等评估。从另一个角度看，图像上下文压缩仍然有很大的研究和改进空间，这代表着一个充满希望的新方向。
学术意义：验证上下文光学压缩可行性，为 LLM 长上下文处理提供新路径 —— 可将多轮对话历史渲染为图像，通过逐步降低分辨率模拟人类记忆衰减（近期高分辨率高保真，远期高压缩比低保真）。
实用价值：生产级 LLM/VLM 训练数据生成能力，单 A100-40G 日生成 200k + 页，20 节点日生成 33M 页。
未来方向：开展 “数字 - 光学文本交错预训练”“大海捞针测试”，进一步验证上下文压缩的泛化性。

6. 关键问题

6.1问题 1

DeepEncoder 在架构设计上如何解决现有 VLMs 编码器的 “高激活、多 token” 痛点，以适配高分辨率输入？

DeepEncoder 通过 “串联模块 + 针对性压缩” 设计解决痛点：

双注意力分工：先用SAM-base（80M 参数，窗口注意力） 处理高分辨率图像的多 patch 感知（如 1024×1024 图像→4096token），窗口注意力仅关注局部区域，激活内存可控；
16× 卷积压缩：在 SAM 与后续模块间插入2 层 3×3 卷积压缩器（步长 2，padding1，通道 256→1024），将 4096token 压缩至 256token，大幅减少后续模块的输入 token 数；
全局注意力轻量化：后续CLIP-large（300M 参数，全局注意力） 仅处理 256token，避免传统全局注意力因 token 过多导致的高激活问题；
多分辨率适配：通过位置编码动态插值支持原生（512-1280×）与动态（分块 + 全局视图）分辨率，无需对超高清图像过度分块（如报纸图像分块 n∈[2:9]），避免 token 激增。

6.2问题 2

DeepSeek-OCR 的视觉 - 文本压缩性能存在哪些核心边界？实验中如何通过设计验证这些边界？

核心边界与验证方式如下：

压缩比 - 精度边界：压缩比 < 10× 时精度～97%（近无损），10-12× 时～90%，20× 时降至～60%；
- 验证设计：在 Fox 基准选取 600-1300token 的英文文档（100 页），测试 DeepEncoder 的 Tiny（64token）与 Small（100token）模式，通过 “文本 token 数 / 视觉 token 数” 计算压缩比，对比不同压缩比下的 OCR 精度；
文档类型 - token 需求边界：简单文档（如幻灯片）仅需 64token 即可达标，复杂文档（如报纸，4-5k 文本 token）需 Gundam 模式（<800token）；
- 验证设计：在 OmniDocBench 测试不同文档类型（书籍 / 幻灯片 / 报纸等），记录各类型达标所需的最小视觉 token 数（如 Table4 显示，报纸需 Gundam 模式编辑距离才降至 0.122）；
分辨率 - 文本清晰度边界：512/640 分辨率下长文本易模糊，导致压缩比 > 10× 时精度下降；
- 验证设计：对比不同分辨率（512×512 vs 1280×1280）下的 OCR 精度，发现 1280×1280（Large 模式，400token）在压缩比 15× 时精度仍保持 85%+，而 512×512（Tiny 模式）同压缩比下精度仅 72%。

6.3问题 3

DeepSeek-OCR 除 OCR 精度外，在实际应用中体现出哪些核心价值？技术上如何支撑这些价值？

核心应用价值与技术支撑如下：

大规模 LLM/VLM 训练数据生成：单 A100-40G 日生成 200k + 页，20 节点日生成 33M 页；
- 技术支撑：端到端架构无需分 “检测 - 识别” 多阶段，训练后模型推理速度快；DeepEncoder 多分辨率支持适配不同格式文档（PDF / 扫描件 / 场景图），数据覆盖近 100 种语言，可批量生成带标注数据。
复杂文档深度解析：支持图表、化学式、几何图形的结构化提取（如图表→HTML、化学式→SMILES）；
- 技术支撑：训练数据包含 10M 图表 + 5M 化学式 + 1M 几何数据（OCR2.0 数据），解码器通过 MoE 架构的专家分工（如专门处理结构化输出的专家），实现跨模态映射精度提升。
低资源场景部署效率：用更少视觉 token 实现高性能（如 < 800token 超越 MinerU2.0 的 6000+token）；
- 技术支撑：DeepEncoder 的高压缩比（10-20×）减少视觉 token 传输与存储成本；解码器为 MoE 架构（激活 570M 参数），推理效率接近 500M 小模型，适配中端 GPU（如 A10）部署。

查看全文

http://www.dtcms.com/a/594821.html