当前位置: 首页 > news >正文

DeepSeek刚刚开源了一个3B的 OCR模型:什么是DeepSeek-OCR?单张A100-40G每天可以处理20万+页文档

DeepSeek刚刚开源了一个3B的 OCR模型:什么是DeepSeek-OCR?单张A100-40G每天可以处理20万+页文档

有这么小的开源模型,却没有一个可以用来评测体验的算力显卡怎么办?
——本文教你白嫖云GPU,不用买卡也能跑。

📌 优质平台:https://gpu.spacehpc.com/user/register?inviteCode=52872508


DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

强!DeepSeek刚刚放出了一个3B OCR模型:DeepSeek-OCR,单张A100-40G每天可以处理20万+页文档。

这不是传统OCR,而是把整页图像压缩进LLM上下文,让大模型像“看懂”文档一样处理PDF、PPT、书籍结构化信息、图表等等——等于是把整幅图=几千字的视觉token塞入Transformer上下文。

在这里插入图片描述


为什么这个模型重要?

传统OCR只能做“识别”,而DeepSeek-OCR做的是视觉压缩 + 上下文语义理解,可以被看作视觉版RAG的上游处理器:

能力优势
压缩一张图压缩成64–128个视觉token
速度单A100 40G → 20万页/天
精度10倍压缩仍可达97%
弹性20倍压缩仍保持60% 可读性
输入支持 512~1280 可变扫描分辨率
功能通用OCR / 图表解析 / 文档结构化 / Markdown生成 / REC定位

对于版式简单的书籍、PPT,64或100个视觉Token就能达到非常高精度


支持能力

  • ✅ 文档结构转换(PDF → Markdown/HTML)
  • ✅ 图表理解(OneChart类似能力)
  • ✅ 文本定位(REC)
  • ✅ 表格抽取
  • ✅ 多语言OCR
  • ✅ 动态分辨率(Gundam模式)
  • ✅ GPU记忆友好:小显存也能跑

开源地址(仓库/模型)

资源链接
GitHubhttps://github.com/deepseek-ai/DeepSeek-OCR
HuggingFacehttps://huggingface.co/deepseek-ai/DeepSeek-OCR

模型安装 & 推理(Huggingface Transformers)

Requirements(python 3.12.9 + CUDA 11.8):

torch==2.6.0
transformers==4.46.3
tokenizers==0.20.3
einops
addict 
easydict
pip install flash-attn==2.7.3 --no-build-isolation

推理Demo

from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR'tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)prompt = "<image>\n<|grounding|>Convert the document to markdown. "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'res = model.infer(tokenizer, prompt=prompt, image_file=image_file,output_path = output_path,base_size = 1024, image_size = 640,crop_mode=True, save_results = True, test_compress = True)

模式说明:

模式base_sizeimage_sizecrop_mode
Tiny512512
Small640640
Base10241024
Large12801280
Gundam1024640

Visualizations(效果展示)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


没显卡怎么白嫖体验?(重点)

可以直接上云平台:

📌 推荐平台:
https://gpu.spacehpc.com/user/register?inviteCode=52872508

在这里插入图片描述

支持免费A100/4090等卡,足够测试DeepSeek-OCR。

在这里插入图片描述

修改输出路径即可:
在这里插入图片描述


结语:这是视觉RAG的新基座模型

DeepSeek-OCR的出现不是“又一个OCR”,而是朝着Vision-to-Context迈出的关键一步。

不输出文本流,而是输出可以直接输入LLM的“上下文视觉Token”,这意味着:

未来的大模型将具备真正的视觉理解与文档逻辑阅读能力

下一步我们只需要把DeepSeek-OCR前置,再接上LLM(DeepSeek-V3 / Qwen2.5 / GLM等),就能做PDF端到端问答 / 复杂表格抽取 / 具备文档连续语义的RAG系统


http://www.dtcms.com/a/512414.html

相关文章:

  • html5企业网站赏析石家庄专门做网站
  • 颍上县住房和城乡建设局网站深圳网络工程公司
  • ESP32学习笔记(基于IDF):ESP32连接MQTT服务器
  • 网站建设敬请期待图片素材wordpress 获取菜单id
  • 做网站用什么源码最好wordpress建站优势
  • 网站图标 代码微信开发网站建设程序
  • 修改 Docker 容器中 MySQL 8.0 默认编码为 utf8mb4_unicode_ci
  • C# Dictionary 线程安全指南:多线程下操作 Dictionary<string, DateTime> 的加锁策略
  • 企业im聊天软件支持什么功能,应该怎么选?
  • 【Linux系统编程】权限的概念
  • githup网站建设网站营销站点有你想
  • 差分|递归
  • 如何通过纺织服装MES系统提升生产效率和管理水平?
  • 打通智慧高速核心系统:湖南某新建项目的收费、通信、监控一体化实践
  • 河南网站建设优化技术福建省建设干部网站
  • 智能机器人:今年双十一“减人增效”的AI智能客服机器人方案
  • 市环保局网站建设方案建站公司哪家好 知道万维科技
  • 房产中介网站建设的目的cms 美容网站 模版
  • vue开发中,如果出现了反显数据有问题(后端明明返回的有数据,但就是不反显,没有值)是什么原因
  • 【2025-系统规划与管理师】第12章:信息系统服务管理
  • C++---嵌套类型(Nested Types)封装与泛型的基石
  • Floyd判圈算法(Floyd Cycle Detection Algorithm)
  • 网站建设支付宝温州建设学校网站
  • 深圳网站制作 优选灵点网络前端开发语言有哪些
  • .NET8 通过自定义类映射appsettings.json 文件某个节点的配置
  • 25-DAPO: An Open-Source LLM Reinforcement LearningSystem at Scale
  • 6个网站建设网站设置保存登录密码怎么取消
  • 网站建设和维护的职责网站开发工程师有证书考试吗
  • 网站建设计算机人员招聘策划营销方案
  • 《i.MX6ULL LED 驱动实战:内核模块开发与 GPIO 控制》