当前位置：首页 > news >正文

【论文精读】DeepSeek-OCR：探索视觉 - 文本压缩的新范式

news 2025/10/29 11:05:04

论文链接：DeepSeek-OCR: Contexts Optical Compression
代码仓库：https://github.com/deepseek-ai/DeepSeek-OCR

1. 引言

在大语言模型（LLMs）的发展过程中，处理长文本内容一直是一个重要挑战。由于计算复杂度随序列长度呈二次方增长，传统的文本处理方式在面对超长上下文时显得力不从心。DeepSeek-AI 团队提出的DeepSeek-OCR为这个问题提供了一个创新性的解决方案：利用视觉模态作为文本信息的高效压缩媒介。

这项工作不仅仅是一个 OCR（光学字符识别）工具，更是对视觉 - 语言模型（VLMs）的重新思考。它不再局限于人类擅长的视觉问答（VQA）任务，而是从 LLM 的角度出发，探索视觉编码器如何增强语言模型处理文本信息的效率。

DeepSeek-OCR 的核心思想是建立视觉表示和文本表示之间的自然压缩 - 解压缩映射。OCR 任务作为连接视觉和语言的中间模态，为这种压缩范式提供了理想的测试平台。
在这里插入图片描述

DeepSeek-OCR 由两个主要组件构成：DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器。其中 DeepEncoder 是整个系统的核心引擎，它的设计具有以下特点：

低激活内存设计：即使在高分辨率输入下也能保持较低的计算资源消耗
高效压缩比：通过创新的架构设计实现高压缩比，确保视觉 tokens 数量可控
混合注意力机制：
- 窗口注意力组件：处理大量视觉 tokens
- 全局注意力组件：捕获全局依赖关系
- 16× 卷积压缩器：连接两个注意力组件，实现有效压缩
  这种设计确保了在保持识别精度的同时，最大限度地减少了视觉 tokens 的数量。

训练数据是模型性能的基础，DeepSeek-OCR 设计了 “OCR 核心数据 + 通用辅助数据” 的混合数据集，总规模超 150M 样本，各部分占比与细节如下：

数据类型	占比	核心内容与作用
OCR 1.0 数据	70%	传统 OCR 任务核心数据，含：1. 30M 页多语言 PDF（100 种语言，中 / 英文 25M 页，其他 5M 页），分 “粗标注”（fitz 提取，教基础文字识别）和 “细标注”（2M 页中 / 英文，用 PP-DocLayout+MinerU/GOT-OCR2.0 做布局 - 识别交织标注）；2. 3M 页 Word 数据：无布局干扰的高质量图文对，优化公式 / HTML 表格识别；3. 20M 页自然场景数据：LAION/Wukong 来源，中 / 英文各 10M，PaddleOCR 标注，支持场景文字识别。
OCR 2.0 数据	含于 OCR 数据中	复杂结构化解析数据，突破传统 OCR 边界：1. 10M 图表数据：pyecharts/matplotlib 生成（折线 / 柱状 / 饼图等），标注为 “图像→HTML 表格”；2. 5M 化学公式：PubChem 的 SMILES 格式→RDKit 渲染图像，构建图文对；3. 1M 平面几何：Slow Perception 方法生成，含线段 / 坐标标注，支持几何结构解析。
通用视觉数据	20%	基于 DeepSeek-VL2 生成，含图像描述、目标检测、视觉定位等任务数据，不追求通用 VLM 能力，仅用于保留视觉接口，方便后续扩展研究。
纯文本数据	10%	内部预处理的纯文本，统一截断为 8192 tokens（与模型序列长度一致），用于保障模型的语言生成能力。

数据处理的关键设计：

多语言支持：通过 “模型飞轮” 解决小语种标注稀缺 —— 用 fitz 切分小语种 PDF 为 patch，训练 GOT-OCR2.0 标注，最终生成 600K 小语种样本；
标注区分：训练时用不同 prompt 区分 “粗标注”（如\nFree OCR）和 “细标注”（含布局坐标），让模型适配不同精度需求。

DeepSeek-OCR 采用 “先训编码器，再训端到端” 的两阶段流程，核心逻辑是：先确保 DeepEncoder 的视觉压缩能力，再结合解码器优化 “压缩→生成” 的端到端效果。

DeepEncoder 是模型压缩能力的关键，需先独立训练以保障 “高分辨率处理 + 低激活内存 + 少视觉 tokens” 的核心特性。

训练目标：让 DeepEncoder 学会将高分辨率图像转化为紧凑的视觉 tokens，同时保留文本语义信息（为后续 OCR 解码做准备）。
训练框架：采用 “next token prediction”（类似 LLM 的自回归预训练），用紧凑语言模型衔接 DeepEncoder 的输出，模拟 “视觉 tokens→文本” 的映射预训练。
训练数据：所有 OCR 1.0+2.0 数据（约 58M 样本）+ 100M LAION 通用图像数据（补充视觉泛化能力）。

在 DeepEncoder 预训练完成后，接入 DeepSeek3B-MoE 解码器，进行端到端训练，优化 “视觉 tokens→文本生成” 的全流程。

训练平台与并行策略：
- 平台：HAI-LLM（高效大模型训练工具）；
- 并行方式：流水线并行（PP）+ 数据并行（DP）：
  - 流水线并行（PP）：将模型拆分为 4 段，DeepEncoder 占 2 段（PP0：SAM + 压缩器，参数冻结；PP1：CLIP，参数解冻），解码器占 2 段（PP2/PP3：DeepSeek3B-MoE 的 12 层各分 6 层）；
  - 数据并行（DP）：20 个节点（每节点 8×A100-40G），DP=40，全局 batch size=640（平衡效率与梯度稳定性）。
训练数据：3.4 节提到的全量数据（OCR 70%+ 通用视觉 20%+ 纯文本 10%），按比例混合输入。

DeepSeek-OCR 在 Fox 基准测试上的表现令人印象深刻：
在这里插入图片描述
关键发现：

在 OmniDocBench 基准测试中，DeepSeek-OCR 展现出了强大的实用价值：

仅用 100 个视觉 tokens：超越了使用 256 个 tokens 的 GOT-OCR2.0
用 400 个视觉 tokens：与当前最先进的模型性能相当
少于 800 个 tokens：超越了需要近 7000 个视觉 tokens 的 MinerU2.0
这种高效率使得 DeepSeek-OCR 在实际应用中具有显著优势。