当前位置: 首页 > news >正文

DeepSeek-OCR:把长文本“挤进图片”的新思路

长上下文会让大模型变慢、变贵。DeepSeek-OCR 提出“光学上下文压缩”:先把文本渲染成图片,用极少的视觉标记承载大量信息;需要时再从这些视觉标记解码为文本。这样既能保留关键内容,又能把计算成本显著降下来。


效果到底怎样?
- 在 10 倍压缩比内,OCR 解码准确率约 97%;
- 在 20 倍压缩时,仍有约 60% 的准确率,可用于较旧或次要的上下文;
- 仅用 100 个视觉标记就超越使用 256 标记的 GOT-OCR2.0;不到 800 个标记(Gundam 模式)即可超过平均每页需 6000+ 标记的 MinerU2.0;
- 单张 A100-40G GPU 每天可生成超 20 万页训练数据,工程可落地。


它是怎么做到的?用一个更“聪明”的编码器 DeepEncoder:前半段用窗口注意力细看局部,后半段用密集全局注意力把握整体;中间插入 16 倍卷积下采样,把标记从 4096 压到 256,让内存和计算压力大幅降低。同时支持多分辨率与动态分块(如 Gundam 模式),高分辨率大图不再被过度碎片化,关键区域更清晰。解码器采用 3B 级 MoE,在保证表达力的同时维持小模型级别的推理效率。


能用在哪些场景?
- 长文档解析:报告、书籍、论文等常见场景用 64–100 个视觉标记就够用;
- 对话历史压缩:把旧对话转成图片并逐步降低分辨率,模拟“遗忘曲线”,节省上下文成本;
- 数据生产:为 LLM/VLM 快速生成高质量预训练数据;
- 复杂视觉表达:图表、化学公式、几何图形与自然图像解析。


与常见方案相比,它不追求极端的高分辨率或细碎分块,而是通过“先压再看全局”的折中设计,在效率与效果之间取得平衡。


注意:当压缩比超过 10 倍时,布局复杂或分辨率过低会造成精度下降;使用场景需结合容忍度选择合适压缩比与分辨率。


开源地址:http://github.com/deepseek-ai/DeepSeek-OCR


一句话总结:把长文本“挤进图片”,用更少的标记承载更多信息,在不明显牺牲准确率的前提下,显著降低长上下文的成本,让大模型更省、更稳、更快。

http://www.dtcms.com/a/511480.html

相关文章:

  • 计算机做网站开题报告网页的六个基本元素
  • AI服务器工作之整机部件(CPU+内存)
  • 【EE初阶 - 网络原理】网络层 + 数据链路层 + DNS
  • 关于二级网站建设西安网站制作一般多少钱
  • 【机器学习06】神经网络的实现、训练与向量化
  • [人工智能-大模型-25]:大模型应用层技术栈 - 大模型应用层的四大开发模式(如何利用大语言模型?)
  • YOLO目标检测:一种用于无人机的新型轻量级目标检测网络
  • 第六部分:VTK进阶(第166章 标量-向量-张量场管理)
  • A Survey of Camouflaged Object Detection and Beyond论文阅读笔记
  • 基于 hexo + github 的个人博客系统搭建
  • 成都私人做网站建设自由做图网站
  • 哈尔滨做网站找哪家好网站的在线支付怎么做
  • 使用pem和key文件给springboot开启https服务
  • XSS攻击防护完整指南
  • 基于Spring Boot的高校实习实践管理系统(源码+论文+部署+安装)
  • 第11篇:源码解析:Jackson核心流程与设计模式
  • 数据库原理实验报告:在ider里搭建mysql数据库
  • 面试(四)——Java 八大包装类、String 、日期类及文件操作核心类 File全解析
  • 【无标题】大模型-7种大模型微调方法 上
  • 信用网站系统建设方案阿里云服务器建设网站选择那个镜像
  • 大型的PC网站适合vue做吗网页制作工具通常在什么上建立热点
  • C++字符串操作与递增递减运算符详解
  • Python 的基本数据类型与它们之间的关系
  • All in One Runtimes下载和安装图解(附安装包,适合新手)
  • Python多patch装饰器使用指南
  • Prometheus监控系统
  • 【Java-集合】Set接口
  • 安卓开发- Log日志工具类
  • 微信链接的微网站怎么做的wordpress注册邮件设置密码
  • 国学大师网站谁做的wordpress dante