当前位置: 首页 > news >正文

【大模型实战篇】华为信创环境采用vllm部署QwQ-32B模型

1. 背景  

        本文分享在华为昇腾机器上部署QwQ-32B模型的实践。

        首先华为自己是提供了一套在信创机器(NPU)上部署模型的方案【1】,但是部署之后,测试发现会有输出截断的现象。QwQ-32B本身是支持128k的最大上下文长度,定位可能是max-model-len的设置没有生效,但是华为的启动参数中只有maxSeqLen以及maxInputTokenLen参数,修改后也不奏效。

        因此我们希望采用更通用更可靠的部署方案。vllm是一种比较通用可靠的推理框架,我们发现vllm已经可以原生支持Ascend【2,3】。

2. 部署及测试

(1)拉取vllm-ascend镜像,为了速度快,可以使用国内镜像地址:

quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler - 镜像下载 | quay.io

docker pull https://docker.aityp.com/image/quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler?platform=linux/arm64

(2)docker启动命令

拉取完成后,启动docker镜像,相关的配置修改如下:

docker run -itd --name vllm-QWQ-32B \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common \
-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /etc/vnpu.cfg:/etc/vnpu.cfg \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /data/qwq:/qwq \
--privileged=true \
-e ASCEND_RT_VISIBLE_DEVICES=0,1 \
-p 40928:40928 \
-it swr.cn-north-4.myhuaweicloud.com/ddn-k8s/quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler-linuxarm64 bash

(3)进入docker镜像      

docker exec -it vllm-QWQ-32B /bin/bash

(4)镜像中,配置QwQ-32B模型的启动脚本

cd /qwq/

vi run_vllm.sh

run_vllm.sh文件脚本如下:

export ASCEND_RT_VISIBLE_DEVICES=0,1
vllm serve "/qwq/model" \
--port 40928   \
--served-model-name QwQ-32B \
--dtype auto \
--kv-cache-dtype auto \
--max-model-len 32768 \
--tensor-parallel-size 2

(5)启动模型脚本

sh run_vllm.sh

(6)测试脚本(宿主机执行)

curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{
 "model": "QwQ-32B",
 "messages": [{
 "role": "system",
 "content": "帮我写一首诗"
 }],
 "max_tokens": 8192
 }' 127.0.0.1:40928/v1/chat/completions

3. 参考材料

【1】昇腾镜像仓库详情

【2】Installation — vllm-ascend

【3】Ascend-vLLM

相关文章:

  • 部署.NET6.0 Web API项目到Docker
  • 基于开源AI智能名片链动2+1模式S2B2C商城小程序的电商直播流量转化路径研究
  • 【Linux】Makefile
  • AI大模型基础设施:主流的几款开源AI大语言模型的本地部署成本
  • kafka学习笔记(四、生产者(客户端)深入研究(二)——消费者协调器与_consumer_offsets剖析)
  • windows系统搭建自己的ftp服务器,保姆级教程(用户验证+无验证)
  • 简单的Qwen3的本地部署、分析与常见报错
  • CSS学习笔记14——移动端相关知识(rem,媒体查询,less)
  • RDMA高性能网络通信实践
  • 计算机视觉(CV)技术的优势和挑战(本片为InsCode)
  • 【分享】deepseek 超强ai助手 1.1.8最新版 不卡顿
  • jenkins 远程执行 定时 执行shell
  • SQL数据库系统全解析:从入门到实践
  • H7-TOOL固件2.29发布,支持各种第3方串口桥接功能,RTT自动重连,CAN/RTT/UART窗口独立同时刷新,增加多款脱机烧录(2025-04-30)
  • 多模态大语言模型arxiv论文略读(五十三)
  • Discover SubtitleMaster, the Ultimate Translation Tool for Creators!
  • Vue之脚手架与组件化开发
  • Linux 命令如何同时支持文件参数与管道输入?
  • 时序建模演进之路:从 MLP、RNN 到 LSTM 与 GRU
  • 【Leetcode 每日一题】2071. 你可以安排的最多任务数目
  • 赵厚均评《唐诗与唐代园林景观的审美建构研究》|林泉恣探历,风景暂徘徊
  • 思政课也精彩,“少年修齐讲堂”开讲《我的中国“芯”》
  • 五一假期首日,多地党政主官暗访督查节日安全和值班值守工作
  • 礼来一季度净利增近三成,明星GLP-1药物替尔泊肽贡献近半收入
  • 侧记|“五五购物节”启动!最大力度补贴,买买买 “666”
  • 神十九都带回了哪些实验样品?果蝇等生命类样品已交付科学家