当前位置: 首页 > news >正文

一文从零部署vLLM+qwen0.5b(mac本地版,不可以实操GPU单元)

第一步:下载anaconda for mac
https://zhuanlan.zhihu.com/p/350828057 知乎保姆级教程
https://www.anaconda.com/docs/getting-started/anaconda/install#macos-linux-installation 下载地址

第二步:部署vllm的虚拟环境
https://www.53ai.com/news/OpenSourceLLM/2025040116542.html

注意⚠️ vllm不支持python 3.13及以上版本,所以配置时得指定
https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html
conda create -n usingvllm python=3.10 jupyter
conda activate usingvllm
git clone https://github.com/vllm-project/vllm.git 已经clone
pip install torch torchvision
一次性安装所有 vLLM 的依赖
pip install -e .
如果报了error可能是没有install成功。

检查
du -sh ~/.cache/huggingface/hub/models–tiiuae–falcon-7b-instruct
删除
rm -rf ~/.cache/huggingface/hub/models–tiiuae–falcon-7b-instruct

第三步:从offline_inference+qwen3入手
快速开始:本地推理从examples/offline_inference/basic/basic.py开始
● LLM 是用于运行 vLLM 引擎离线推理的主类。
● SamplingParams 指定了采样过程的参数。
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
● 采样温度(输出的随机程度):越小越保守(0.1),越高越创造性(1.0-1.2)
● 核心采样概率top_p(nucleus sampling):采样时候选词概率总和,表示模型会从累计概率为前 95% 的候选词中选一个(对比top-k 选前k个词)
llm = LLM(model=“facebook/opt-125m”)
● 模型从https://huggingface.co/Qwen/Qwen3-0.6B

在线服务从examples/online_serving/openai_completion_client.py开始
第四步:本地跑serve出错及解决

Load and run the model:

vllm serve “Qwen/Qwen3-0.6B”

● 解决——不选择默认的=4,调整最大maxlen:
export VLLM_CPU_KVCACHE_SPACE=8
vllm serve “Qwen/Qwen3-0.6B” --max-model-len 2048

已上在vsc部署成功(约等于把自己电脑当成服务器了)

另起终端
//Call the server using curl:
curl -X POST “http://localhost:8000/v1/chat/completions”
-H “Content-Type: application/json”
–data ‘{
“model”: “Qwen/Qwen3-0.6B”,
“messages”: [
{
“role”: “user”,
“content”: “What is the capital of France?”
}
]
}’
输出:

对应“服务器”输出:即为部署成功。

分析:

  1. WARNING [cpu.py:248] Pin memory is not supported on CPU.使用的是 CPU 环境(Mac M3 Pro 无 CUDA),这个警告是预期的,不会影响结果,只是说不能做 pinned memory 提速(只有 GPU 可用)。
  2. INFO [metrics.py:417] Avg prompt throughput: 3.0 tokens/s
    INFO [metrics.py:417] Avg generation throughput: 10.5 tokens/s
    模型每秒处理平均 3 个 prompt token,生成 token 平均 10.5 个/s,对于 Mac CPU 跑的模型来说,这个速度是完全合理的(0.6B 的 Qwen 模型)
  3. INFO: 127.0.0.1:58210 - “POST /v1/chat/completions HTTP/1.1” 200 OK
    响应状态码 200,说明接口调用完全成功,用 curl 或 Python requests.post() 调用的 API 得到了返回结果

文章转载自:

http://bnFD0Skr.dschz.cn
http://NWvnkEGt.dschz.cn
http://VNBt3UJH.dschz.cn
http://SmRfLJpX.dschz.cn
http://8NMJOo33.dschz.cn
http://SOQKx4rM.dschz.cn
http://HvAisaso.dschz.cn
http://Xbp3vtTD.dschz.cn
http://oSbaGYI2.dschz.cn
http://dyKlfG3Y.dschz.cn
http://hR24pvS8.dschz.cn
http://AJHmKPgh.dschz.cn
http://ZE3URFvs.dschz.cn
http://frspBjNR.dschz.cn
http://t9uNAHD4.dschz.cn
http://5ZnorYWz.dschz.cn
http://ia8t94iY.dschz.cn
http://h0rXf8KV.dschz.cn
http://dtagzDpB.dschz.cn
http://PmZubh2k.dschz.cn
http://eBItyzId.dschz.cn
http://iuJ5riy5.dschz.cn
http://XcZFlmya.dschz.cn
http://XLhxA5z5.dschz.cn
http://Nz2f0IS5.dschz.cn
http://ORyvCprc.dschz.cn
http://Z8hMtFHP.dschz.cn
http://SntQHuih.dschz.cn
http://z4XAgsgI.dschz.cn
http://huGGGmZp.dschz.cn
http://www.dtcms.com/a/368118.html

相关文章:

  • Python核心基础:运算符、流程控制与字符串操作详解
  • Follow 幂如何刷屏?拆解淘宝闪购×杨幂的情绪共振品牌营销
  • 嵌入式学习4——硬件
  • 数据标注:人工智能视觉感知的基石
  • 【Linux系统】POSIX信号量
  • 【Python - 类库 - requests】(02)使用“requests“发起GET请求的详细教程
  • XSCT/Vitis 裸机 JTAG 调试与常用命令
  • 【GitHub每日速递】不止 TeamViewer 替代!RustDesk 与 PowerToys,Windows 效率神器
  • 使用海康机器人相机SDK实现基本参数配置(C语言示例)
  • Go 服务注册 Nacos 的坑与解决方案——从 404 到连接成功的排查之路
  • 智能相机还是视觉系统?一文讲透工业视觉两大选择的取舍之道
  • Go语言中atomic.Value结构体嵌套指针的直接修改带来的困惑
  • react+umi项目如何添加electron的功能
  • 告别 OpenAI SDK:如何使用 Python requests 库调用大模型 API(例如百度的ernie-4.5-turbo)
  • 《sklearn机器学习——聚类性能指数》同质性,完整性和 V-measure
  • C#海康车牌识别实战指南带源码
  • 五、Docker 核心技术:容器数据持久化之数据卷
  • (计算机网络)DNS解析流程及两种途径
  • 3-8〔OSCP ◈ 研记〕❘ WEB应用攻击▸REST API枚举
  • Tabby使用sftp上传文件服务器ssh一直断开
  • 解密大语言模型推理:输入处理背后的数学与工程实践
  • python 自动化在web领域应用
  • FDTD_3 d mie_仿真
  • Electron 安全性最佳实践:防范常见漏洞
  • SAP ERP公有云详解:各版本功能对比与选型
  • Linux:进程信号理解
  • 深度学习:Dropout 技术
  • Linux 磁盘扩容及分区相关操作实践
  • 【前端】使用Vercel部署前端项目,api转发到后端服务器
  • 【ARDUINO】ESP8266的AT指令返回内容集合