当前位置：首页 > news >正文

Deepseek新模型Deepseek-OCR, 不仅仅是OCR

news 2025/10/21 9:22:17

AI圈子总是不缺新消息，deepseek-ocr是今天看到蛮有价值的一篇论文。这里跟大家分享一下。

原论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

如果网络不顺畅也可以从这里下载：https://pan.quark.cn/s/fb444248ccae

核心内容

模型的思路：把文字拍成照片，再用 AI 把照片压成极小的‘视觉令牌’，最后几乎原样地把文字还原回来。一句话：用看图的办法给文字瘦身，还能读得准。

打个比方：
你有一本 1000 字的书，直接塞进大模型里要吃 1000 个“tokens”。现在先把这页书拍照，DeepSeek-OCR 把照片压成只有 50～100 个“tokens”，再让模型把这 50 个tokens还原成 1000 个字，准确率 97%，省了近 10 倍的计算量。

(模型输入输出都是要token化，所以这里直接输入少了90%同样可以保持基本的精度的话，那就相当有价值了，一方面省算力，另一方面基于之前“压缩即智能”的理念，或许模型会产生新的质变。)

核心套路分三步：

拍照压缩：用他们自研的 DeepEncoder 把高清图片压成极少的视觉令牌。
小模型解码：用 3B 的 MoE 语言模型当“读图识字机”，把令牌变回文字。
海量训练：灌了 3000 万页 PDF、1000 万图表、几何题、化学式等五花八门的图，让模型啥都能认。

结果：

一页普通文档，别人要花 6000 个tokens，它 100 个就搞定，错误率还更低。
一天能“扫”20 万页书，生成大模型预训练数据。
还能顺手识别 100 种语言、图表、公式、几何图，堪称“全能扫描王”。

一句话总结：以后大模型看长文，不用逐字啃，先“拍照压缩”再读，又快又省脑。

一个反直觉的事实

按人类直觉，一段文字存成 .txt 只有几 KB，存成 .jpg 动辄几百 KB，怎么看都是“图片更胖”。但这里的关键是：

我们关心的不是硬盘容量，而是“模型大脑”里的注意力开销。

在 Transformer 大模型里，

文字要一个字（token）一个字地过注意力，1000 字就是 1000 个位置，计算量随长度平方增长。
图片先被视觉编码器压成“视觉令牌”，DeepSeek-OCR 能把一整页 1000 字压成 50～100 个视觉令牌，再交给模型。计算量瞬间降了一个量级。

所以“反直觉”的点在于：
对人类来说，txt 省硬盘；对模型来说，txt 反而更费脑。
图片一旦压缩成极少的视觉令牌，就把“平方级”的文字注意力开销变成了“常数级”的图片令牌开销，硬盘大≠大脑累，这就是 DeepSeek-OCR 把定势翻过来的精髓。

用一句中式比喻：
“txt 是轻行囊、重脑力；jpg 是重行囊、轻脑力。”
DeepSeek 把行囊里的砖头换成了压缩饼干，背起来一样轻，脑子却省了大把力气。

或许这就是中国古话里边提到的“一图胜千言”。

带来的新启发

这项技术为处理超长文本提供了新思路：

可以模拟人类的“记忆遗忘”机制
近期的信息保持高清，久远的信息逐渐压缩
为AI处理海量内容开辟了新路径

人脑的记忆曲线本来就是：

刚发生的事，细节纤毫毕现（高分辨率图片）；
越久以前的事，越只剩模糊轮廓（低分辨率缩略图甚至只剩文字标签）。

DeepSeek 的玩法恰好能对上这条曲线：

把对话历史按时间切片成一页页“图片”。
新的图片保持高清，视觉令牌多，细节全；
越久远的图片越缩越小，令牌指数级减少，信息自然模糊；
再久一点直接缩到 0 令牌，等于“遗忘”。

这样模型随时能处理“理论上无限长”的上下文，却只占常数级的显存和计算——显存不再随对话轮数爆炸，而是随“遗忘系数”衰减。

DeepSeek-OCR这篇论文提到的方案，可以实现给AI装上了一双“过目不忘”的眼睛，既能高效压缩信息，又能准确还原内容，同时还可以根据需要进行合理压缩，在文档处理和长文本理解方面有着巨大潜力。

其实这篇文章对我个人还有一个很大的启发，不要顺着思维定式去思考问题，或许从模型的角度来去思考解决问题的新思路，可以发现很多之前忽略的本质。

写在最后的碎碎念，非原文中内容

前一段时间有人提出的理念是：自然语言就是一切，围绕自然语言深入下去就可以实现真正的通用智能，也就是AGI，搞世界模型什么的思路都错了...我不否认自然语言是人类进化过程中非常重要的发明，也是因为自然语言的重视才有了transformer和今天的模型生态，但人类好像没有自然语言的话也能正常生活，正常理解这个物理世界，也是可以产生智能的，所以ocr的这个思路，或许可以开启将视觉信息重新更高效利用的新篇章。

emm，人类的一切发明，都是来源于仿生。

查看全文

http://www.dtcms.com/a/507650.html