当前位置: 首页 > news >正文

VLLM离线推理本地Qwen3_32B大模型

 在命令行使用代码查看显卡类型:nvidia-smi

 

1.安装必要的包:vllm,openai

2.下载 Qwen3_32B 模型到本地路径:

 从 modelscope 下载模型:  modelscope 中 Qwen3_32B 模型下载地址

modelscope download --model Qwen/Qwen3-32B --local_dir your/local/dir_path

3.在命令行中使用vllm serve 推理模型:

 注:因为Qwen3_32B 模型在一张4090显卡上跑不起来,故此设置使用了4张4090显卡推理。

vllm serve /home/ubuntu/Desktop/data_zy_0726/model/Qwen/Qwen3-32B \
--tensor-parallel-size 4 \  # 使用4张显卡进行推理
--dtype auto \
--gpu-memory-utilization 0.9  # 设置现存使用率 90%,保留10%防止崩溃

参数解释:  vllm 参数详解

 此时该 Qwen3_32B 模型已经在本地运行起来了,可使用命令:

curl http://localhost:8000/v1/models

8000:为默认端口; 

进行验证,输出为:

其中:

"id":"/home/ubuntu/Desktop/data_zy_0726/model/Qwen/Qwen3-32B"

表示模型名称,在调用 api 时需要使用。

4.使用 openai 框架进行推理:vllm_qwen3_32b_run.py

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1",  # api 地址api_key="empty"  # 如果api_key在使用 vllm serve推理时未设置,则在这里随便填一个即可,用于占位
)completion = client.chat.completions.create(model="/home/ubuntu/Desktop/data_zy_0726/model/Qwen/Qwen3-32B", # 模型名称,及前面所说idmessages=[{"role": "user", "content": "你好,你是谁!"}]
)print(completion.choices[0].message)

循环提问:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1",api_key="empty"
)while True:problem = input("请输入你的问题:\n")completion = client.chat.completions.create(model="/home/ubuntu/Desktop/data_zy_0726/model/Qwen/Qwen3-32B", # 模型名称而非本地路径messages=[{"role": "user", "content": problem}])print(completion.choices[0].message)

运行代码:

python vllm_qwen3_32b_run.py

输出结果: 

http://www.dtcms.com/a/306320.html

相关文章:

  • Linux的应用层协议——http和https
  • SpringBoot 整合 自定义MongoDB
  • 大坝安全监测站:对大坝的坝体、坝基、两岸边坡及相关设施进行全方位、实时的安全监测
  • 分层解耦(Controller,Service,Dao)
  • RHCA - CL260 | Day03:配置 RHCS 集群
  • 城市内涝淹水体积估算工作流程(QGIS)
  • 开疆智能Mpdbus转Profinet网关连接电磁流量计配置案例
  • 20250730在荣品的PRO-RK3566开发板的Android13下调通敦泰的FT8206触控芯片【I2C的挂载】
  • IBM Watsonx BI:AI赋能的下一代商业智能平台
  • 八股文场景题
  • 企业微信API接口发消息实战:从0到1的技术突破之旅
  • MySQL 读写分离
  • 论文阅读|NeurIPS 2024|Mamba进一步研究|MSVMamba
  • 飞算科技:原创技术重塑 Java 开发,引领行业数智化新浪潮
  • 网络的学习 2 Socket
  • 面记 | android 应用开发(某半导体公司)
  • LoRaWAN协议,提升公用事业能源效率的“隐形引擎”
  • 动态规划Day5学习心得
  • windows本地使用conda部署Open-webui
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-48,(知识点:BUCK电路的损耗,开关损耗,导通损耗,电感损耗、驱动损耗)
  • BeeWorks Meet:私有化部署,重塑高安全需求行业的视频会议体验
  • ubuntu自动搭建Android平台NDK编译环境
  • C++11 std::function 详解:通用多态函数包装器
  • nav2--安装/教程
  • 中大网校社会工作师培训持续发力,多维度提升服务效能
  • 论文阅读|ArxiV 2024|Mamba进一步研究|VSSD
  • 【AI 数据管理】Text2SQL:当AI成为你和数据库之间的金牌“翻译官”
  • 亚马逊Kiro重塑AI编程:从“氛围编码”到规范驱动的革命
  • 排序算法入门:直接插入排序详解
  • 应用宝(MediaRouteProviderService)媒体路由保活思路研究