AI大模型:(二)1.6 DeepSeek-OCR部署尝鲜
目录
1.部署要求
2.安装
2.1.环境准备
2.2.模型下载
3.推理
3.1.推理代码
3.2.错误解决
3.3.推理
4.推理结果
2025年10月20日深度求索重磅发布DeepSeek-OCR(OCR(Optical Character Recognition,文字识别)模型是一种用来从图像中提取文本的技术)多模态模型,以"探索视觉-文本压缩边界"为目标,通过重构视觉编码器功能定位,为文档识别及图像转文本场景提供高效解决方案 。该模型由DeepEncoder编码器与DeepSeek3B-MoE-A570M解码器构成,参数规模约3B,支持将长文本渲染为图像实现高压缩比表达。
DeepSeek-OCR在高分辨率输入下保持低计算激活,其10倍无损压缩时OCR准确率达97%,20倍压缩率下仍保有约60%准确率。在OmniDocBench测试中,使用100个视觉token即超越GOT-OCR2.0(每页256token),800个视觉token优于MinerU2.0(每页超6000token)。单张A100显卡可日生成超20万页训练数据,为长文本压缩与LLM记忆机制研究提供新思路。