当前位置: 首页 > news >正文

深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩

目录

  • 一、论文概述
  • 二、论文脑图
  • 三、论文总结
    • 1.研究背景
    • 2.模型方法
      • 2.1整体架构
      • 2.2DeepEncoder:核心编码器设计
      • 2.3训练数据
      • 2.4训练流程
    • 3. 实验评估:性能与能力验证
      • 3.1Fox 基准:视觉 - 文本压缩性能
      • 3.2OmniDocBench:实际 OCR 性能
    • 4.定性研究
    • 5.讨论与结论
    • 6. 关键问题
      • 6.1问题 1
      • 6.2问题 2
      • 6.3问题 3

  • DeepSeek-OCR 论文:DeepSeek-OCR: Contexts Optical Compression(上下文光学压缩)

  • 论文:https://arxiv.org/abs/2510.18234(2025.10)

  • GitHub:https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

  • 模型下载:DeepSeek-OCR · 模型库

一、论文概述

DeepSeek-OCR 是 DeepSeek-AI 提出的用于探索视觉 2D 映射压缩长上下文可行性的视觉语言模型(VLM),由DeepEncoder(核心编码器,~380M 参数)DeepSeek3B-MoE-A570M 解码器(激活 570M 参数) 构成;其核心优势在于 DeepEncoder 通过串联窗口注意力(SAM-base)、16× 卷积压缩器与全局注意力(CLIP-large),实现高分辨率输入下的低激活内存与高压缩比,实验显示在 Fox 基准上压缩比 < 10× 时 OCR 精度达 97% 、20× 时仍保持 60% 精度,在 OmniDocBench 上仅用 100 视觉 token 超越 GOT-OCR2.0(256token)、<800 视觉 token 超越 MinerU2.0(6000+token),同时具备深度解析(图表 / 化学式 / 几何)、近 100 种语言识别能力,生产级场景下单 A100-40G 日生成 200k + 页 LLM/VLM 训练数据,为 LLM 长上下文处理与记忆遗忘机制研究提供新方向。

二、论文脑图

在这里插入图片描述

三、论文总结

1.研究背景

  • LLM 长文本处理痛点:现有 LLM 处理长文本时,计算量随序列长度呈二次缩放,资源消耗巨大。
  • 核心创新思路:利用视觉模态作为文本高效压缩媒介 —— 单张文档图像的视觉 token 数量远少于等效数字文本,可实现更高压缩比。
  • 测试选择:OCR 任务(视觉 - 语言中间模态),天然具备 “视觉→文本” 的压缩 - 解压缩映射,且支持量化评估(如精度、编辑距离)。
  • 三大核心贡献
    1. 首次量化分析视觉 - 文本 token 压缩比,明确不同压缩比下的 OCR 精度边界;
    2. 提出DeepEncoder,实现高分辨率输入下的低激活内存与少视觉 token;
    3. 构建 DeepSeek-OCR,在 OmniDocBench 上以最少视觉 token 达成 SOTA,且具备多任务能力。

2.模型方法

2.1整体架构

DeepSeek-OCR 为端到端 VLM 架构,分为编码器(DeepEncoder)与解码器(DeepSeek3B-MoE),具体结构如下:

组件核心功能关键参数 / 设计
DeepEncoder图像特征提取 + 视觉 token 压缩~380M 参数(80M SAM+300M CLIP)
16× 卷积压缩器连接 SAM 与 CLIP,减少 token2 层 3×3 核,步长 2, padding1
解码器视觉 token→文本生成3B MoE,激活 570M 参数(6/64 专家 + 2 共享)

2.2DeepEncoder:核心编码器设计

  • 架构优势:解决现有 VLMs 编码器(如 Vary、InternVL2.0、Qwen2-VL)“高激活、多 token、部署难” 问题,关键设计包括:
    1. 串联双注意力模块:窗口注意力(SAM-base)处理多 patch 感知,全局注意力(CLIP-large)提取知识,兼顾细节与全局;
    2. 16× token 压缩:在双模块间插入卷积压缩器,将 SAM 输出的多 token(如 1024×1024 图像→4096token)压缩至 256token,控制全局注意力激活内存。
  • 多分辨率支持:通过位置编码动态插值,实现单模型适配多场景,具体模式如下:
模式类型子模式原生分辨率视觉 token 数处理方式
原生分辨率Tiny512×51264直接 resize
Small640×640100直接 resize
Base1024×1024256保持宽高比,padding
Large1280×1280400保持宽高比,padding
动态分辨率Gundam640+1024n×100+256分块(n∈[2:9])+ 全局视图
Gundam-M1024+1280n×256+400预训练后续训,适配超高清

2.3训练数据

  • OCR 1.0 数据:30M PDF(100 语言,中 / 英 25M + 其他 5M,含粗标注 / 细标注)、10M 场景 OCR(中 / 英各 5M,LAION/Wukong 来源);
  • OCR 2.0 数据:10M 图表(pyecharts/matplotlib 生成,→HTML 表格)、5M 化学式(PubChem SMILES→RDKit 渲染)、1M 平面几何(Slow Perception 生成,含平移增强);
  • 通用视觉数据:占比 20%,用于保留通用视觉接口(如 caption / 检测);
  • 纯文本数据:占比 10%,8192token 长度,保障语言生成能力。

2.4训练流程

  • 阶段 1:训练 DeepEncoder
    • 优化器:AdamW,学习率 5e-5,余弦退火调度;
    • 数据:OCR1.0/2.0 + 100M LAION 数据,2 轮训练,1280 批大小,4096 序列长度。
  • 阶段 2:训练整体模型
    • 部署:HAI-LLM 平台,20 节点(每节点 8×A100-40G),PP 拆分 4 部分(DeepEncoder 占 2,解码器占 2);
    • 优化器:AdamW,初始学习率 3e-5,全局批大小 640;
    • 训练速度:纯文本 90B token / 天,多模态 70B token / 天。

3. 实验评估:性能与能力验证

3.1Fox 基准:视觉 - 文本压缩性能

  • 测试设置:选取 Fox 基准中 600-1300token 的英文文档(100 页),测试 DeepEncoder 的 Tiny(64token)与 Small(100token)模式,使用提示词 prompt 不指定排版来控制模型的输出格式,不过输出格式仍然无法完全符合 Fox 标准,所以实际效果会略高于测试结果。
  • prompt 为:
<image>\nFree OCR.
  • 文本标记(Text Tokens)表示使用DeepSeek-OCR的分词器对真实文本进行分词后的标记数。

  • Vision Tokens=64或100分别表示在将输入图像调整大小为512×512和640×640后,DeepEncoder输出的视图标记数。
    在这里插入图片描述

  • 如表所示,在10倍压缩比下,模型的解码精度可以达到约97%,是一个非常有前景的结果。在未来,有可能通过文本到图像的方法实现近乎10倍的无损上下文压缩。当压缩比超过10倍时,性能开始下降,可能有两个原因:一是长文档的排版更加复杂,另一个原因可能是长文本在512×512或640×640分辨率下变得模糊。第一个问题可以通过将文本渲染到单页布局来解决,而我们相信第二个问题将会是遗忘机制的一个特点。在将词元压缩近 20 倍时,我们发现精确率仍然可以达到 60%。这些结果表明,光学语境压缩是有效的。

  • 这显然是一个很有前景的研究方向,而且该方法不需要任何开销,因为其可以利用VLM基础设施,而多模态系统本身就需要一个额外的视觉编码器。

3.2OmniDocBench:实际 OCR 性能

  • DeepSeek-OCR 不仅是一个实验性模型,它还具有很强的实用能力,并且可以为大型语言模型/视觉语言模型的预训练构建数据。为了量化OCR性能,我们在提出的OmniDocBench上测试了DeepSeek-OCR,实验结果见下表。
    在这里插入图片描述

  • 使用OmniDocBench来测试DeepSeek-OCR在实际文档解析任务中的性能。表中的所有指标都是编辑距离,数值越小表示性能越好。“Tokens”表示每页使用的平均视图tokens,“†²⁰⁰dpi”表示使用fitz将原始图像插值为200dpi。对于DeepSeek-OCR模型,“Tokens”列中的括号内值表示有效的视图tokens。

  • 实验表明只需100个视图标记(640×640分辨率),DeepSeek-OCR的性能就超越了使用256个标记的GOT-OCR2.0;使用400个标记(285个有效标记,1280×1280分辨率),它在该基准上的性能与当前最佳方法持平。 使用不到800个标记(高达Gundam模式),DeepSeek-OCR的性能就超越了需要近7,000个视图标记的MinerU2.0。 这些结果充分证明了我们的DeepSeek-OCR模型在实际应用中的强大能力,同时更高的标记压缩率也意味着它拥有更高的研究潜力。

  • 一些文档类别只需要很少的标记就可以达到令人满意的效果,例如幻灯片,只需要64个视图标记。对于图书和报告类文档,DeepSeek-OCR 只需要100个视图标记就能取得良好的效果。结合分析,这可能是因为这些文档类别中的大多数文本标记都在1,000个以内,意味着视图标记压缩比不超过10×。对于报纸,需要使用 Gundam 或甚至 Gundam-master 模式才能达到可接受的编辑距离,因为报纸中的文本标记数量为 4-5,000,远超其他模式的10×压缩比。这些实验结果进一步证明了视图上下文光学压缩的边界,这可能为视觉标记在 VLMs 和上下文压缩、LLMs 中的遗忘机制优化研究提供有效的参考。

4.定性研究

  • 深度解析:DeepSeek-OCR 同时具备排版识别和 OCR 2.0 能力,可以通过二次模型调用进一步解析文档中的图像,我们称之为“深度解析”。模型可以对图表、几何、化学方程乃至自然图像进行深度解析,只需要一个统一的提示。(即支持图表→HTML 表格、化学式→SMILES、平面几何→结构化描述(如线段 / 坐标))。
  • 多语言识别:支持近 100 种语言,含阿拉伯语、僧伽罗语等小语种,可输出带布局 / 无布局格式;
  • 通用视觉理解:保留图像描述、目标检测、grounding 能力(如定位 “11-2=”“the teacher”)。

5.讨论与结论

  • 讨论
    • DeepSeek-OCR是对 vision-text 压缩能力的初步探索,研究需要多少 vision 模型的输出才能解码出 𝐴 个文本 token。初步结果显示是令人鼓舞的:DeepSeek-OCR 在大约 10 倍压缩比的情况下实现了近乎无损的 OCR 压缩,20 倍压缩比下仍然能保持 60% 的准确率。这些发现暗示着未来可以在多轮对话中对对话历史进行光学处理(optical processing),以实现 10 倍的压缩效率。
    • DeepSeek-OCR初步探索显示了可扩展的超长上下文处理的潜力,其中最近的上下文保留高分辨率,而较旧的上下文消耗更少的资源,但这还只是早期的工作,需要进一步的研究。该方法提出了一条通往理论上无限大的上下文架构的道路,可以在信息保留和计算限制之间取得平衡,不过对未来研究中这种vision-text压缩系统的实际影响和局限性进行更深入的探讨是很有必要的。
  • 结论
    • 在技术报告中,DeepSeek-OCR 初步验证了通过该模型实现图像压缩的可行性,证明该模型可以有效解码 vision token 数量远少于文本 token 数量级的文本。这一发现将有助于未来 VLMs 和 LLMs 的发展。此外,DeepSeek-OCR 是一种高度实用的模型,可用于大规模预训练数据生产,是 LLMs 不可或缺的辅助工具。当然,仅 OCR 无法充分验证真正的图像压缩效果,在未来进行数字-图像文本交错预训练、搜寻测试等评估。从另一个角度看,图像上下文压缩仍然有很大的研究和改进空间,这代表着一个充满希望的新方向。
  • 学术意义:验证上下文光学压缩可行性,为 LLM 长上下文处理提供新路径 —— 可将多轮对话历史渲染为图像,通过逐步降低分辨率模拟人类记忆衰减(近期高分辨率高保真,远期高压缩比低保真)。
  • 实用价值:生产级 LLM/VLM 训练数据生成能力,单 A100-40G 日生成 200k + 页,20 节点日生成 33M 页。
  • 未来方向:开展 “数字 - 光学文本交错预训练”“大海捞针测试”,进一步验证上下文压缩的泛化性。

6. 关键问题

6.1问题 1

DeepEncoder 在架构设计上如何解决现有 VLMs 编码器的 “高激活、多 token” 痛点,以适配高分辨率输入?

DeepEncoder 通过 “串联模块 + 针对性压缩” 设计解决痛点:

  1. 双注意力分工:先用SAM-base(80M 参数,窗口注意力) 处理高分辨率图像的多 patch 感知(如 1024×1024 图像→4096token),窗口注意力仅关注局部区域,激活内存可控;
  2. 16× 卷积压缩:在 SAM 与后续模块间插入2 层 3×3 卷积压缩器(步长 2,padding1,通道 256→1024),将 4096token 压缩至 256token,大幅减少后续模块的输入 token 数;
  3. 全局注意力轻量化:后续CLIP-large(300M 参数,全局注意力) 仅处理 256token,避免传统全局注意力因 token 过多导致的高激活问题;
  4. 多分辨率适配:通过位置编码动态插值支持原生(512-1280×)与动态(分块 + 全局视图)分辨率,无需对超高清图像过度分块(如报纸图像分块 n∈[2:9]),避免 token 激增。

6.2问题 2

DeepSeek-OCR 的视觉 - 文本压缩性能存在哪些核心边界?实验中如何通过设计验证这些边界?

核心边界与验证方式如下:

  1. 压缩比 - 精度边界:压缩比 < 10× 时精度~97%(近无损),10-12× 时~90%,20× 时降至~60%;
    • 验证设计:在 Fox 基准选取 600-1300token 的英文文档(100 页),测试 DeepEncoder 的 Tiny(64token)与 Small(100token)模式,通过 “文本 token 数 / 视觉 token 数” 计算压缩比,对比不同压缩比下的 OCR 精度;
  2. 文档类型 - token 需求边界:简单文档(如幻灯片)仅需 64token 即可达标,复杂文档(如报纸,4-5k 文本 token)需 Gundam 模式(<800token);
    • 验证设计:在 OmniDocBench 测试不同文档类型(书籍 / 幻灯片 / 报纸等),记录各类型达标所需的最小视觉 token 数(如 Table4 显示,报纸需 Gundam 模式编辑距离才降至 0.122);
  3. 分辨率 - 文本清晰度边界:512/640 分辨率下长文本易模糊,导致压缩比 > 10× 时精度下降;
    • 验证设计:对比不同分辨率(512×512 vs 1280×1280)下的 OCR 精度,发现 1280×1280(Large 模式,400token)在压缩比 15× 时精度仍保持 85%+,而 512×512(Tiny 模式)同压缩比下精度仅 72%。

6.3问题 3

DeepSeek-OCR 除 OCR 精度外,在实际应用中体现出哪些核心价值?技术上如何支撑这些价值?

核心应用价值与技术支撑如下:

  1. 大规模 LLM/VLM 训练数据生成:单 A100-40G 日生成 200k + 页,20 节点日生成 33M 页;
    • 技术支撑:端到端架构无需分 “检测 - 识别” 多阶段,训练后模型推理速度快;DeepEncoder 多分辨率支持适配不同格式文档(PDF / 扫描件 / 场景图),数据覆盖近 100 种语言,可批量生成带标注数据。
  2. 复杂文档深度解析:支持图表、化学式、几何图形的结构化提取(如图表→HTML、化学式→SMILES);
    • 技术支撑:训练数据包含 10M 图表 + 5M 化学式 + 1M 几何数据(OCR2.0 数据),解码器通过 MoE 架构的专家分工(如专门处理结构化输出的专家),实现跨模态映射精度提升。
  3. 低资源场景部署效率:用更少视觉 token 实现高性能(如 < 800token 超越 MinerU2.0 的 6000+token);
    • 技术支撑:DeepEncoder 的高压缩比(10-20×)减少视觉 token 传输与存储成本;解码器为 MoE 架构(激活 570M 参数),推理效率接近 500M 小模型,适配中端 GPU(如 A10)部署。
http://www.dtcms.com/a/594821.html

相关文章:

  • P6149 [USACO20FEB] Triangles S题解
  • 青岛大型网站设计公司潍坊网站建设多少钱
  • shell(5)--case菜单和echo
  • 动易网站模版的制作衡水网站开发
  • 就业服务网站建设方案才艺多网站建设平台
  • 天猫优惠卷怎么做网站个人不能建设论坛网站怎么办
  • 娱乐网站建设流程WordPress 三图
  • 【代码审计】h3blog 两处安全问题分析
  • 字符串匹配和回文串类题目
  • Ansible 基础知识总结
  • 宁波余姚网站建设wordpress判断文章id
  • 深入解析wordpress 原书第2版 pdf 下载重庆企业网站优化
  • 蓝桥杯零基础到获奖-第4章 C++ 变量和常量
  • AI芯片产品经理操作手册
  • 教做甜品网站源码网站建设教程
  • 大型门户网站有哪些企业网站建设存在的问题
  • wordpress微信拦截青岛关键词优化排名
  • 电源模块冲击电流测试如何测试,需要哪些设备?-纳米软件
  • 广告网站建设制作设计c2c的网站
  • 【MicroPython编程-ESP32篇】-BME680传感器驱动
  • 电脑上制作网站的软件手机端网站建设教程视频教程
  • 网站qq代码做电商网站用什么语言
  • Docker容器的一次迁移
  • Android Studio移动应用基础教程(前言)
  • 莱芜网站建设流程网站备案号没有-1
  • 哪些网站收录排名好建立网站的申请
  • 建设银行网站登录不了目前较流行的网站开发框架
  • 创建web项目踩坑记录
  • 自己服务器做网站服务器备案1个人做多网站负责人
  • 燃烧100克脂肪换算多少卡路里?