当前位置: 首页 > news >正文

A10服务器使用vllm推理框架成功运行Qwen3大模型

1.下载Qwen3大模型:

git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git

放在服务器的/mnt/workspace/Qwen3-1.7B目录下。

2.创建python虚拟环境:

python3 -m venv venv1
source venv1/bin/activate

3.安装vllm推理框架

pip install vllm 

在这里插入图片描述

4.启动vllm服务

CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \--model /mnt/workspace/Qwen3-1.7B \--served-model-name qwen3 \--gpu-memory-utilization=0.85 \--tensor-parallel-size 1 \--trust-remote-code

注意以下几点:
(1)如果不指定端口,则vllm默认端口是8000;
(2)参数gpu-memory-utilization必须加上,不然可能会报oom显存不足的错误;
(3)tensor-parallel-size的个数,取决于使用的GPU数量。
启动需加载1-2分钟左右,启动结果如下:
在这里插入图片描述
在这里插入图片描述

5.查询大模型

curl http://localhost:8000/v1/models

查询到名字为qwen3的模型:
在这里插入图片描述

6.调用大模型服务

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen3","messages": [{"role": "user", "content": "介绍一下你自己"}],"temperature": 0.7,"top_p": 0.8,"top_k": 20,"max_tokens": 128,"presence_penalty": 1.5,"chat_template_kwargs": {"enable_thinking": false}
}'

返回结果:
在这里插入图片描述

7.显卡使用情况

在这里插入图片描述

http://www.dtcms.com/a/208046.html

相关文章:

  • MCP 服务与 Agent 协同架构的理论基石:从分布式智能到生态化协作
  • YOLOV11改进策略【最新注意力机制】CVPR2025局部区域注意力机制LRSA-增强局部区域特征之间的交互
  • Android屏幕适配利器:Kotlin动态尺寸计算工具类完整封装
  • 矩阵:线性代数在AI大模型中的核心支柱
  • Kotlin-数组,集合类以及序列
  • SQLMesh Typed Macros:让SQL宏更强大、更安全、更易维护
  • 探索C++对象模型:This指针与(构造、析构)成员函数的深度解析(中篇)
  • iOS使用Metal对采集视频进行渲染
  • OpenHarmony外设驱动使用 (十三),Vibrator
  • Java桌面应用开发详解:自制截图工具从设计到打包的全流程【附源码与演示】
  • 2025年渗透测试面试题总结-匿名[社招]安全工程师(红队方向)2(题目+回答)
  • Linux(5)——再谈操作系统
  • 【AS32X601驱动系列教程】SMU_系统时钟详解
  • RNN GRU LSTM 模型理解
  • 飞桨(PaddlePaddle)在机器学习全流程(数据采集、处理、标注、建模、分析、优化)
  • 前端vue2-完全前端生成pdf->pdf-lib,html2canvas+jspdf,原生打印,三种方式(打印带有echarts图的pdf)
  • 可视化大屏实现全屏或非全屏
  • 继电保护与安全自动装置:电力系统安全的守护神
  • Windows 安装 FFmpeg 新手教程(附环境变量配置)
  • ProfiNet转Ethernet/IP网关选型策略适配西门子S7-1500与三菱变频器的关键参数对比
  • Oracle Apps R12——报表入门2:单表——报表开发流程
  • .NET外挂系列:6. harmony中一些实用的反射工具包
  • 大模型高效微调方法综述:P-Tuning软提示与lora低秩微调附案例代码详解
  • word设置如“第xx页 共xx页”格式的页码
  • 本地分支git push 报错 fatal: The current branch XXXX has no upstream branch.
  • 百千鳥VF可变字体 momochidori variable font
  • Lyra学习笔记1地图角色加载流程
  • 塔能高温冰蓄冷技术:工厂能耗精准节能的创新之路
  • window 显示驱动开发-视频内存供应和回收(三)
  • 3D个人简历网站 7.联系我