当前位置: 首页 > news >正文

【多模态】46、DeepSeek-OCR | 一张图片是否真能抵千词

在这里插入图片描述

论文:DeepSeek-OCR: Contexts Optical Compression

代码:https://github.com/deepseek-ai/DeepSeek-OCR

出处:DeepSeek-AI

时间:2025.10

一、背景

当前大型语言模型(LLM)在处理长文本时面临计算复杂度高的问题(序列长度的平方级增长),所以该方法探索视觉模态在文本压缩中的潜力,验证“一张图片是否真能抵千词”(高压缩比下保持文本解码精度)。

在这里插入图片描述

二、方法

DeepSeek-OCR提出了DeepEncoder,专门解决现有视觉编码器的痛点:高分辨率输入时token过多、激活内存大、不支持多分辨率等。
在这里插入图片描述

具体处理流程:

  • 输入图片1024x1024
  • 切分为16x16的patch,共4096patch token
  • 送入SAM(80M,不参与训练)进行local attention,输出还是4096token
  • 送入压缩卷积将4096token降维到256token(重点!)
  • 压缩后的token送入 CLIP-large(300M,训练,去掉第一层patch嵌入层,直接输入压缩后的token),通过全局注意力提取全局信息
  • 将CLIP的输出送入 DeepSeek-3bA570M,训练

特点:

  • 支持高分辨率输入(如 1024×1024)且保持低激活内存。
  • 动态多分辨率支持(Tiny/Small/Base/Large/Gundam 模式),适应不同压缩比需求。
  • 通过位置编码插值实现灵活输入尺寸调整。

三、数据集

数据配比:OCR : general vision : text-only = 70% :20%:10%

1、OCR1.0数据:包括图片OCR和文档OCR

  • 图片OCR:

    • 收集 LAION/Wukong等,使用PaddleOCR打标,中英各1000万
  • 文档OCR:

    • 包括3000万PDF页面(包括100种语言,2500万是中英文、500万是其他语言)
    • 处理方式:
      • ①粗糙处理:使用 fitz 提取全文信息
      • ②精细处理:借助版面检测模型(PP-DocLayout)进行版面切割,然后用OCR模型(MinuerU和GOT-OCR2.0)进行识别
      • 粗糙处理和精细处理的数据会使用不同的prompt用于训练

2、OCR2.0数据:图表、化学公式、平面几何

  • 图表数据:借鉴OneChart,使用pyecharts和matplotlib渲染 1000 万图片,主要包括 line、bar、pie、composite charts。
  • 化学式数据:使用来自PubChem的SMILES格式作为数据来源,并通过RDKit将其渲染为图像,构建500万条图像-文本对
  • 平面几何数据:参考 Slow Perception 进行生成,共构建100万平面几何数据。

3、通用视觉数据:caption、detection、grounding

  • 因为 DeepSeek-OCR不是锚定通用模型的,所以只加了20%的该类数据参与训练,只是为了保留一些通用视觉理解能力。
    4、纯文本数据:为了保留模型语言能力,加入了 10% 的 in-house text-only 数据

四、训练方式

两阶段训练方式:

  • stage1:只训练训练 DeepEncoder,冻结语言模型
  • stage2:全流程训练DeepSeek-OCR

1.4.1 stage1

数据:使用所有 OCR1.0 和 OCR2.0 数据,从LAION 中随机选出 1亿 通用数据
训练超参数:2epoch,batch 1280,AdamW,lr=5e-5,长度=4096

1.4.2 stage2

训练模式:训练由4部分流水线训练(pipeline parallelism,PP)组成,前两部分训练 DeepseekEncoder(SAM+压缩器冻结,CLIP训练),后两部分训练语言模型

五、效果展示

对指令跟随能力一般,下面展示几个支持的典型场景和prompt

1、全文分块定位+识别

在这里插入图片描述
2、表格解析、配图理解

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3、文本定位、目标定位任务

在这里插入图片描述

http://www.dtcms.com/a/522034.html

相关文章:

  • 蒙文网站建设的意义网站建设服务 行业代码
  • 网站设计谈判python开源代码网站
  • RK Android15 删除下拉状态栏(QuickSettings)中某些图标的修改
  • Android bind service使用Binder 池的方法
  • 没有网页快照对网站有什么影响如何自己建设网站
  • 让别人做网站推广需要多少钱昆山网站制作哪家强
  • 在荔浦找事情做投简历那个网站餐饮网站建设需求分析
  • 网站制作在线版英文建站
  • 莱芜摩托车网站php网站开发程序编译软件
  • 联通公网ip申请 做网站网站广东省备案系统
  • 北京网站建设公司怎么排版2019做网站的出路
  • 高端网站建设推来客地址wordpress怎么编辑网站
  • 服务器禁止ip访问网站外网访问wordpress
  • 镇江百度网站购物网站开发uml图
  • 加密的网站使用jmeter做压测东营信息发布平台
  • jquery网站引导插件店面门头设计网站
  • 做sns网站需要什么网页程序开发采购
  • 关于网站建设与维护论文德州网站建设价格
  • 旋转器(Spinner)详细介绍
  • 做ppt找图片网站网站建设公司推广广告语
  • 昆明seo网站建设金华企业网站建站模板
  • 网站建设免费国外泰安直聘网官网
  • 网站seo分析报告案例设计官网有什么好处
  • 上海建设协会网站徐州网站外包
  • 如何检测网站死链如何在国外网站做翻译兼职
  • 设置网站关键词怎么做淘宝客模板wordpress
  • 鄂尔多斯市住房和城乡建设厅网站做微信网站价格
  • 石家庄商城网站建设网站管理员怎么做联系方式
  • ios风格网站模板新闻热点事件摘抄2022
  • 旅游网--个人网站建设 论文个人简历html代码