当前位置：首页 > news >正文

综述：deepSeek-OCR，paddle-OCR，VLM

news 2025/10/29 8:53:05

原文地址：https://arxiv.org/abs/2510.18234https://arxiv.org/abs/2510.18234

开始之前先明确定义：DeepSeek-OCR 属于多模态模型，而且是非常“纯粹”的一类：它同时接收图像和文本两种模态，输出文本，完全符合 Vision-Language Model（VLM）的定义。

but

DeepSeek-OCR 是一个“领域多模态”模型，或者说 OCR-oriented VLM。它保留了多模态的“看图说话”能力，却把全部参数和 token 预算都押在“文字从图片里解压缩”这一件事上，从而把压缩率推到 10×～20×，这是通用 VLM 不会刻意优化的方向。

PaddleOCR = 高性能单模态 OCR 工具链；
DeepSeek-OCR / InternVL / Qwen2.5-VL = 多模态视觉-语言模型。

在OCR技术快速发展的今天，我们面临着两种截然不同的技术路径选择：一种是经过工业验证的传统OCR方案，另一种是新兴的基于视觉压缩的创新方法。DeepSeek-OCR作为后者的代表，与业界熟知的PaddleOCR-VL形成了鲜明的技术对比。

核心差异：不同的设计哲学

PaddleOCR-VL延续了经典的“检测-识别”两阶段思路。它首先使用专门的版面分析模型定位文档中的各个区域（标题、正文、表格等），然后再调用识别模型处理每个区域。这种方法在工业界经过充分验证，在金融票据识别、证件核验等数千个实际场景中都表现出色。

而DeepSeek-OCR采用了全新的“视觉-文本压缩”范式。它将整页文档视为一个完整的视觉单元，通过创新的压缩技术直接提取文本语义，避免了传统方法中的多步骤处理流程。

传统VLM的处理瓶颈：为何复杂图片会导致token爆炸

要理解DeepSeek-OCR的创新价值，我们需要先了解传统视觉语言模型（VLM）的处理方式：

传统VLM处理流程：
[输入图像] → [图像分割为N×N图块] → [每个图块转换为视觉token] → 
[文本token + 视觉token组合] → [模型处理]示例：一张标准文档图片
- 图像分辨率：1024×1024像素
- 图块大小：32×32像素
- 总图块数：(1024/32) × (1024/32) = 32×32 = 1024个图块
- 每个图块转换为1个视觉token
- 总视觉token数：1024个

问题所在：传统的VLMs如Qwen2.5-VL、InternVL3等，需要将整张图像分割成大量的小图块，每个图块都转换为视觉token。对于高分辨率文档图像，这会导致：

token数量激增：一页文档可能产生3000-6000个视觉token
上下文窗口占用：大量视觉token挤占了文本理解的空间
计算成本高昂：注意力机制的复杂度与token数量的平方成正比

这就是所谓的“token爆炸”问题——复杂文档图像产生的视觉token数量远超模型的处理能力，导致要么无法处理完整文档，要么需要付出极高的计算成本。

DeepSeek-OCR的创新处理机制

DeepSeek-OCR通过独特的“视觉压缩”机制，从根本上解决了token爆炸问题：

DeepSeek-OCR处理流程：
[整页文档图像] → [自适应分辨率编码] → [视觉压缩模块] → 
[压缩后的视觉token] → [统一语义理解]关键创新点：
1. 自适应分辨率编码- 使用NaViT技术，支持多分辨率输入- 不切分图像，保持完整上下文2. 视觉压缩模块- 局部注意力层 → 卷积压缩器 → 全局注意力层- 将上千视觉token压缩为数百个- 保留关键语义信息，丢弃冗余细节3. 端到端统一处理- 一次性完成识别与理解- 无需多阶段流水线

压缩效果示例：