当前位置: 首页 > news >正文

【Deepseek OCR】重磅测试,mac环境下的体验【本人已经本地实验成功】

文章目录

    • Deepseek ocr 这模型
      • 模型下载
    • 使用用再说
      • 先下下来尝试一下
      • 搭配环境 【conda环境】
      • 使用 hf-mirror.com 替换 https://huggingface.co
      • 报错指南
        • model镜像无法下载
        • 报错cuda错误
      • 最终结果
    • Todo后续会使用gradio来体验
    • 有兴趣拉一下

Deepseek ocr 这模型

在人工智能时代,光学字符识别(OCR)技术已成为数字化转型的核心引擎,从文档扫描到知识提取,其应用正日益扩展。2025年10月20日,DeepSeek-AI团队开源了DeepSeek-OCR模型,这款约30亿参数的视觉-语言模型(VLM)以“上下文光学压缩”(Contexts Optical Compression)为核心创新,通过将长文本转化为视觉令牌,实现7-20倍的压缩率,同时保持高精度。该模型在撰写本文戒指10月23日10:00已在GitHub上迅速积累超过12K星,备受Andrej Karpathy等行业大咖青睥。本文从源码分析、架构设计、本地案例验证及实际使用场景四个维度,深入剖析DeepSeek-OCR的效果与潜力,揭示其在OCR领域的突破性价值。

说了很多,模型参数(3B)足够本地运行了,本人mac 本地环境,想针对该模型进行工作适配。

模型下载

https://huggingface.co/deepseek-ai/DeepSeek-OCR

镜像地址

https://hf-mirror.com/deepseek-ai/DeepSeek-OCR

使用用再说

先下下来尝试一下

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

如果网络有问题使用如下

git clone https://gitee.com/ZhangALiang/DeepSeek-OCR.git

本人在镜像上用pdf mathTranslate生成了一份中文版论文。可以对照着看。

搭配环境 【conda环境】

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

下载依赖

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0
pip install -r requirements.txt

注意,本人使用pip install torch2.6.0 torchvision0.21.0 torchaudio2.6.0 --index-url https://download.pytorch.org/whl/cu118 无法下载。
也没有安装pip install flash-attn
2.7.3 --no-build-isolation
也就是没有使用vllm

使用 hf-mirror.com 替换 https://huggingface.co

在这里插入图片描述

# HUGGINGFACE_CO_URL_HOME = "https://huggingface.co/"
HUGGINGFACE_CO_URL_HOME = "https://hf-mirror.com/"
_HF_DEFAULT_ENDPOINT = "https://hf-mirror.com"
# _HF_DEFAULT_ENDPOINT = "https://huggingface.co"

报错指南

model镜像无法下载
# 1. 设置镜像源(核心)
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
# (可选)2. 设置本地缓存路径(避免每次下载到默认目录)
os.environ["HUGGINGFACE_HUB_CACHE"] = "./my_hf_cache"
报错cuda错误

由于本地是mac的,不支持cuda,那么出现cuda错误,那么就跳转到指定位置,对cuda()注解掉就行。在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

最终结果

识别还是挺准的。就是有点慢

可鞥会更

Todo后续会使用gradio来体验

有兴趣拉一下

代码在
在这里插入图片描述
而且输出内容。有文字内容,同时还有图像分割。
在这里插入图片描述

调整代码地址

http://www.dtcms.com/a/519772.html

相关文章:

  • 轻量化(Lightweight)概念
  • [人工智能-大模型-58]:模型层技术 - 深度神经网络的本质是一个复杂的复合数学函数
  • 【小白笔记】将十进制数(Decimal)转换为二进制数(Binary),并计算二进制表示中“1”的个数
  • 长春怎么注册网站平台wordpress 视频列表
  • 【ReAcTable】面向表格问答任务的ReAct增强框架
  • Docker 部署 Elasticsearch 全流程手册
  • React 集成Redux数据状态管理 数据共享 全局共享
  • Docker与Nginx:现代Web部署的完美二重奏
  • 【JUnit实战3_08】第四章:从 JUnit 4 迁移到 JUnit 5
  • React 03
  • 前端基础之《React(2)—webpack简介-使用Babel》
  • 广州网站建设公司嘉御建设手机银行网站
  • 【Linux系统编程】软件包管理器
  • 怎么快速定位bug?如何编写测试用例?
  • NetIP,一款开源的快速网络信息查看工具
  • 有限元方法核心原理与学习路径:从一维基础到多维拓展(七步流程)
  • TCP(滑动窗口/拥塞窗口补充)
  • nginx前端部署与Vite环境变量配置指南
  • webrtc getStats 内部调用流程分析
  • 通过 Stdio(标准输入/输出)传输机制,实现 CrewAI 与本地 MCP 服务器的连接
  • 英文版网站建设方案手机app免费制作
  • 通过API网关部署FC函数
  • 单例模式精写
  • SQL sever数据库--第三次作业
  • XLM-R模型:大规模跨语言表示的突破与实践
  • GitLab 多安全漏洞可致攻击者触发拒绝服务状态
  • JAVA基础篇:分支结构——让程序学会“做选择”
  • SpringDataRedis 快速入门总结
  • 安徽省建设厅网站资料下载建了qq群 如何快速推广
  • 重庆做木门网站公司龙城区建设局网站