当前位置：首页 > wzjs >正文

宁波网站建设工作百度网盘搜索

wzjs 2025/8/23 11:31:19

宁波网站建设工作,百度网盘搜索,学做网站要学多久,做网站需要办什么手续一、环境准备与安装 1. 创建虚拟环境为避免依赖冲突，建议使用conda创建独立环境： conda create -n vllm python3.10 -y conda activate vllm若conda命令未找到，需配置环境变量： echo export PATH"/usr/local/anaconda3/…

一、环境准备与安装

1. 创建虚拟环境

为避免依赖冲突，建议使用conda创建独立环境：

conda create -n vllm python=3.10 -y
conda activate vllm

若conda命令未找到，需配置环境变量：

echo 'export PATH="/usr/local/anaconda3/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
conda init

2. 安装依赖库

SQLite升级（解决版本兼容性问题）：

conda config --add channels conda-forge
conda config --set channel_priority strict
conda install sqlite=3.42.0

xFormers加速（可选但推荐）：

pip install xformers-0.0.27.post2-cp310-cp310-manylinux2014_x86_64.whl

3. 安装vLLM

推荐使用清华源加速安装：

pip install vllm==0.5.4 -i https://pypi.tuna.tsinghua.edu.cn/simple

python -c "import vllm; print(vllm.__version__)"  # 应输出0.5.4

二、模型下载与准备

从ModelScope下载模型（以Qwen2.5-1.5B为例）：

modelscope download --model qwen/Qwen2.5-1.5B
模型默认路径为：
~/.cache/modelscope/hub/qwen/Qwen2.5-1.5B

三、单机多卡部署

1. 启动命令

以2卡为例：

vllm serve /path/to/model \--dtype half \                  # 半精度减少显存占用--tensor-parallel-size 2 \      # 张量并行数=GPU数--gpu-memory-utilization 0.8 \  # 显存利用率阈值--max-model-len 2048 \          # 最大输入长度--max-num-seqs 8 \             # 最大并发序列数--enforce-eager \               # 禁用图优化，避免兼容性问题--api-key token-abc123          # 自定义API密钥

关键参数说明：

–tensor-parallel-size：必须与GPU数量一致，否则会报错ValueError: Total number of attention heads must be divisible by tensor parallel size 。
–gpu-memory-utilization：建议0.7~0.9，过高可能导致OOM 。
–enforce-eager：禁用CUDA图优化，提升稳定性但略微降低性能。

2. 验证服务

服务默认监听0.0.0.0:8000，可通过以下命令测试：

curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "qwen2-1.5b","messages": [{"role": "user", "content": "你好，你是谁？"}]}'

预期返回：

{"choices": [{"message": {"content": "我是通义千问，由阿里云开发的大语言模型。"}}]
}

四、性能优化与问题排查

1. 显存管理

现象：显存占用异常高
解决：调整–gpu-memory-utilization至更低值（如0.5），或启用–swap-space 16利用主机内存扩展交换空间。

KV缓存优化：vLLM通过PagedAttention技术动态管理显存，但长序列仍可能占满显存。可通过–block-size 8减小内存块大小。

2. 常见报错

CUDA版本不兼容：
若报错Bfloat16 is only supported on GPUs with compute capability ≥8.0，需强制使用float16：

vllm serve ... --dtype float16

多卡启动卡死：
设置环境变量强制使用spawn模式：

export VLLM_WORKER_MULTIPROC_METHOD=spawn

五、基准测试

使用ab工具测试吞吐量（需安装apache2-utils）：

ab -n 100 -c 10 -p request.json -T "application/json" 
http://localhost:8000/v1/chat/completions

六、总结

vLLM的单机多卡部署流程可概括为：环境配置→模型下载→参数调优→服务验证。关键点包括：

1.确保CUDA、PyTorch与vLLM版本兼容。

2.根据GPU数量设置–tensor-parallel-size 。

3.通过–gpu-memory-utilization平衡显存与性能。

查看全文

http://www.dtcms.com/wzjs/454253.html

潍坊专业网站建设哪家好网络广告策划

wordpress本地做好如何改站点地址如何设置友情链接

网站开发使用哪种工具好宁波网站建设的公司

做亚马逊网站一般发什么快递网络推广有哪几种方法

体育网站界面该怎样做网上营销型网站

wordpress后台可视化编辑器免费seo营销软件

广州网站导航搜索引擎优化时营销关键词

做网站需要留什么百度优化插件

wordpress主题知更鸟seo优化排名易下拉软件

个人注册登录谷歌seo网站推广

鹤岗市建设局网站自己做网络推广怎么做

wordpress wp-content权限青岛关键词优化seo

沈阳哪家做网站好产品网络推广

网站做跳转付款seo网站优化软件

企业网站建设要注意什么做网站的公司哪家好

移动网站制作南昌seo排名扣费

网站建设有哪些岗位职责汕头网站排名优化

营销网站建设实力派易网拓百度官网认证申请

网站制作自助品牌网络营销策划

网站建设营销策略seo专员是什么职位

合肥市做网站的公司有哪些百度安装下载

哈尔滨做网站费用seo好学吗

有没有专门做花鸟鱼虫的网站枸橼酸西地那非片功效效及作用

信阳网站建设sem是什么职位

网站建设需求报告推广平台的方法

怎么做网站推广临沂武汉seo创造者

怎么寻找做有意做网站的客户邀请注册推广赚钱

外包公司好吗标题优化方法

人力资源公司网站建设方案建网站需要多少钱

全国网站集约化建设试点百度seo优化推广