当前位置: 首页 > news >正文

如何让vllm使用modelscope而不是huggingface来下载模型?

要让vLLM通过ModelScope下载模型而非HuggingFace,需要完成以下关键步骤:

  1. 设置环境变量
    在运行vLLM前通过命令export VLLM_USE_MODELSCOPE=True指定模型来源。此变量需在初始化vLLM引擎前生效,可临时设置或写入.bashrc文件永久生效。

  2. 模型存储路径配置(可选)
    若需自定义模型缓存路径,设置环境变量export MODELSCOPE_CACHE=/your/custom/path/。否则默认路径为~/.cache/modelscope/hub,需注意磁盘空间是否充足。

  3. 多卡运行注意事项
    使用多GPU时需满足:

    • 设置CUDA_VISIBLE_DEVICES指定可见显卡
    • Attention Head数量需能被GPU数量整除(如40 Head需用2/4/5/8等卡数)
    • 调整--tensor-parallel-size参数与显卡数量一致
  4. 模型下载与加载
    示例命令:

    # 单卡启动示例
    CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-14B \
    --served-model-name deepseek-r1 \
    --trust-remote-code
    
    # 多卡启动示例(需提前设置VLLM_USE_MODELSCOPE)
    CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-14B \
    --tensor-parallel-size 4 \
    --max-model-len 8192
    
  5. 常见问题处理

    • 空间不足:通过MODELSCOPE_CACHE指定大容量存储路径
    • 并行错误:检查Head数与GPU数的整除关系
    • 版本冲突:建议使用Python3.8+和vLLM 0.3.0+版本

通过上述配置,vLLM会自动从ModelScope镜像源下载模型文件,下载速度相比HuggingFace可提升5-10倍。实际部署时建议配合modelscope库的snapshot_download方法预下载模型,避免服务启动时的长时间等待。

相关文章:

  • C#光速入门的指南
  • XXL-JOB深度解析:新一代分布式任务调度解决方案
  • 分布式架构篇——分库分表与数据一致性保障
  • Educational Codeforces Round 175 (Rated for Div. 2)
  • KTV点歌系统
  • Windows逆向工程入门之MASM浮点数存储机制
  • 小米 SU7 Ultra:科技与性能的极致融合,FPC 隐匿的关键力量【新立电子】
  • 华为hcia——Datacom实验指南——STP工作基本原理及STP/RSTP基本功能配置
  • Python虚拟环境使用指南
  • Http、tcp、https、socket、tomcat、长短连接等总结回顾
  • SpringBoot AI + PgVector向量库 + Openai Embedding模型
  • JAVA安全—手搓内存马
  • JVM--虚拟机
  • 【大模型】什么是蒸馏版大模型
  • 量子计算如何提升机器学习效率:从理论到实践
  • 深度学习的正则化深入探讨
  • Open3D的所有窗口小部件
  • go并发编程
  • STM32定时器超声波测距实验手册
  • 【VxLAN】二、VxLAN-EVPN分布式网关-ensp实验
  • 合肥seo关键词排名/网站seo优化的目的
  • 网站建设 收费明细/梅州网络推广
  • 小榄网站建设公司/怎么制作链接网页
  • 电子商务网站的建设的意义/文章发布在哪个平台好
  • 临汾网站建设 吕梁网站建设/三只松鼠软文范例500字
  • 上海最繁华的五个区/aso安卓优化公司