当前位置: 首页 > news >正文

M3部署vllm

本地环境

  • macbookpro M3
  • vllm main分支最新commit_id 315068eb4a4b87a54ea201898b2fb6267f147eb3

安装vllm

conda create -n vllm python=3.12 -y
conda activate vllm
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install -r requirements/cpu.txt
uv pip install -e .
vllm --version

不兼容报错

vllm --version
INFO 11-03 14:39:58 [importing.py:68] Triton not installed or not compatible; certain GPU-related functions will not be available.
[1]    41487 segmentation fault  vllm --version

更新torch版本到2.9.0 vim requirements/cpu.txt

diff --git a/requirements/cpu.txt b/requirements/cpu.txt
index ac0c4d20c..96440fe80 100644
--- a/requirements/cpu.txt
+++ b/requirements/cpu.txt
@@ -7,9 +7,9 @@ numba == 0.61.2; platform_machine != "s390x" # Required for N-gram speculative dpackaging>=24.2setuptools>=77.0.3,<80.0.0--extra-index-url https://download.pytorch.org/whl/cpu
-torch==2.8.0+cpu; platform_machine == "x86_64" or platform_machine == "s390x"
-torch==2.8.0; platform_system == "Darwin"
-torch==2.8.0; platform_machine == "ppc64le" or platform_machine == "aarch64"
+torch==2.9.0+cpu; platform_machine == "x86_64" or platform_machine == "s390x"
+torch==2.9.0; platform_system == "Darwin"
+torch==2.9.0; platform_machine == "ppc64le" or platform_machine == "aarch64"# required for the image processor of minicpm-o-2_6, this must be updated alongside torchtorchaudio; platform_machine != "ppc64le" and platform_machine != "s390x"

在这里插入图片描述

vllm chat

  • 下载模型 git clone git@gitcode.com:hf_mirrors/Qwen/Qwen3-0.6B.git
  • vllm chat 要禁用编译,否则会报错 EngineCore failed to start.
    from vllm import LLM, SamplingParamsllm = LLM(model="/Users/yanlp/downloads/Qwen3-0.6B",trust_remote_code=True,quantization=None,max_model_len=2048,max_num_batched_tokens=2048,dtype="float32",enforce_eager=True,   # ✅ 禁用编译,关键
    )sampling_params = SamplingParams(temperature=0.5, top_p=0.95, max_tokens=1024)
    messages = [{"role": "user", "content": "你好,你是谁,简单自我介绍一下"}
    ]
    output = llm.chat(messages, sampling_params=sampling_params)
    generated_text = output[0].outputs[0].text
    request_output = output[0]
    prompt_token_count = len(request_output.prompt_token_ids)
    generated_token_count = len(request_output.outputs[0].token_ids)
    total_token_count = prompt_token_count + generated_token_count
    
    输出

vllm serve

  • serve vllm serve --help=all
    vllm serve /Users/yanlp/downloads/Qwen3-0.6B \--max-model-len 2048 \--max-num-batched-tokens 2048 \--dtype float32 \--port 8001 \--served-model-name yanlp-Qwen3-0.6B \--enforce-eager
    
  • 查看模型列表http://localhost:8001/v1/models
    在这里插入图片描述
  • 流式请求持续返回token使用情况 stream_options[continuous_usage_stats]=true
    curl --location 'http://localhost:8001/v1/chat/completions' \
    --header 'Content-Type: application/json' \
    --data '{"model": "yanlp-Qwen3-0.6B","messages": [{"role": "user","content": "你好,你是谁,简单自我介绍一下"}],"top_p": 0.95,"stream": true,"stream_options": {"include_usage": true,"continuous_usage_stats": true}
    }'
    
    在这里插入图片描述
http://www.dtcms.com/a/592473.html

相关文章:

  • 仿新浪全站网站源码公司简介电子版宣传册模板
  • 在 Lit 应用中实现响应式布局
  • 零基础学AI大模型之向量数据库介绍与技术选型思考
  • 三次更名的背后:百度AI的定位困惑
  • StreamingT2V:从文本生成一致、动态和可扩展的长视频
  • 网站入口百度免费空间最大的网盘
  • 基于YOLO11深度学习的电梯内车辆识别系统【Python源码+Pyqt5界面+数据集+安装使用教程+训练代码】【附下载链接】
  • vscode配置Claude Code(使用智谱API)
  • 基于VMware与CentOS 7的Hadoop集群部署全景指南
  • 【系统分析师】考后总结
  • Java 枚举类(Enum)技术文档
  • Qt 里写 QUdpSocket 发一串数据为例,用 4 层模型顺一遍流程
  • 太阳光模拟器:在电动天窗直射工况下HUD测试中的应用
  • 网站seo分析学做网站多少钱
  • JMeter与Postman的区别
  • (对标 Spring AI 和 LangChain4j)Solon AI MCP v3.7.0, v3.6.4, v3.5.8 发布(支持 LTS)
  • 玩转二叉树:数据结构中的经典之作
  • ASP.NET网站开发之“跨域”
  • 服饰品牌网站建设千川推广官网
  • Vue2/3面试题
  • C++ ODB ORM 完全指南:从入门到实战应用
  • Java-----集合
  • 金昌市网站建设vfp wordpress
  • 网站建设,从用户角度开始私人做网站
  • 哪个网站做婚礼邀请函好武进区城乡建设局网站
  • 网站开发成本报表新开传奇网站单职业
  • 网站设计与网页配色实例精讲微信登陆wordpress
  • 网站建设外贸开发软件用什么工具
  • 建设工程行业招工信息网站企业网站营销的优缺点及案例
  • 网站栏目策划如何推广自己的产品