当前位置：首页 > news >正文

如何让vllm使用modelscope而不是huggingface来下载模型？

news 2025/9/22 16:32:38

要让vLLM通过ModelScope下载模型而非HuggingFace，需要完成以下关键步骤：

设置环境变量
在运行vLLM前通过命令export VLLM_USE_MODELSCOPE=True指定模型来源。此变量需在初始化vLLM引擎前生效，可临时设置或写入.bashrc文件永久生效。
模型存储路径配置（可选）
若需自定义模型缓存路径，设置环境变量export MODELSCOPE_CACHE=/your/custom/path/。否则默认路径为~/.cache/modelscope/hub，需注意磁盘空间是否充足。
多卡运行注意事项
使用多GPU时需满足：
- 设置CUDA_VISIBLE_DEVICES指定可见显卡
- Attention Head数量需能被GPU数量整除（如40 Head需用2/4/5/8等卡数）
- 调整--tensor-parallel-size参数与显卡数量一致

模型下载与加载
示例命令：

# 单卡启动示例
CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-R1-14B \
--served-model-name deepseek-r1 \
--trust-remote-code

# 多卡启动示例（需提前设置VLLM_USE_MODELSCOPE）
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-R1-14B \
--tensor-parallel-size 4 \
--max-model-len 8192

常见问题处理
- 空间不足：通过MODELSCOPE_CACHE指定大容量存储路径
- 并行错误：检查Head数与GPU数的整除关系
- 版本冲突：建议使用Python3.8+和vLLM 0.3.0+版本

通过上述配置，vLLM会自动从ModelScope镜像源下载模型文件，下载速度相比HuggingFace可提升5-10倍。实际部署时建议配合modelscope库的snapshot_download方法预下载模型，避免服务启动时的长时间等待。

http://www.dtcms.com/a/44179.html

相关文章：

C#光速入门的指南

XXL-JOB深度解析：新一代分布式任务调度解决方案

分布式架构篇——分库分表与数据一致性保障

Educational Codeforces Round 175 (Rated for Div. 2)

KTV点歌系统

Windows逆向工程入门之MASM浮点数存储机制

小米 SU7 Ultra：科技与性能的极致融合，FPC 隐匿的关键力量【新立电子】

华为hcia——Datacom实验指南——STP工作基本原理及STP/RSTP基本功能配置

Python虚拟环境使用指南

Http、tcp、https、socket、tomcat、长短连接等总结回顾

SpringBoot AI + PgVector向量库 + Openai Embedding模型

JAVA安全—手搓内存马

JVM--虚拟机

【大模型】什么是蒸馏版大模型

量子计算如何提升机器学习效率：从理论到实践

深度学习的正则化深入探讨

Open3D的所有窗口小部件

go并发编程

STM32定时器超声波测距实验手册

【VxLAN】二、VxLAN-EVPN分布式网关-ensp实验

Android Trace埋点beginSection打tag标签，Kotlin

【Linux】命令行参数 | 环境变量(四)

Educational Codeforces Round 174 (Rated for Div. 2)

充电枪和充电桩的区别

破解密码防线：渗透测试中的密码攻击手法汇总

敏捷原则与实践（Agile principles and practices）

【RAG系列】当RAG遇到多模态 - 打开新世界的大门

Redis版本的EOL策略与升级路径（刷到别划走）

蓝桥杯 6.数学

Tomcat基础知识及其配置