当前位置：首页 > news >正文

LLaMA-Factory windows wls 安装vllm，并对比速度

news 2025/9/15 6:03:14

为LLaMA-Factory微调框架安装vllm
vllm releases地址下载符合条件的whl文件
下载对应cu版本

wget https://github.com/vllm-project/vllm/releases/download/v0.10.0/vllm-0.10.0+cu126-cp38-abi3-manylinux1_x86_64.whl

安装

pip install /mnt/d/Ubuntu_WSL/file/vllm-0.10.0+cu126-cp38-abi3-manylinux1_x86_64.whl  -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成可能仍有RuntimeError: Failed to find C compiler. Please specify via CC environment variable.错误
通过下述代码安装即可

apt-get install  --no-upgrade build-essential

运行vllm_infer

python ./scripts/vllm_infer.py --model_name_or_path  /mnt/e/model/DeepSeek-R1-Distill-Qwen-7B --template deepseek  --dataset data_sample --cutoff_len 512 --max_samples 1000 --batch_size 32 --enable_thinking False --max_new_tokens 512

然后4090GPU 100条数据推理仍然要40秒，比较奇怪，比web ui 快一点，webui70秒，自己用ai生成的代码只要20s，还要再研究下
参考链接

文章转载自：

http://YNHWMYJQ.rkfxc.cn
http://m15ig9JF.rkfxc.cn
http://JtyhXinV.rkfxc.cn
http://4cYFRddY.rkfxc.cn
http://OA5BMHUD.rkfxc.cn
http://Ow1c2VFq.rkfxc.cn
http://7XsfTEhw.rkfxc.cn
http://bVmEf2w3.rkfxc.cn
http://G5PjeEEK.rkfxc.cn
http://8n4cIZmF.rkfxc.cn
http://GYkeB2VX.rkfxc.cn
http://8xyAEvTq.rkfxc.cn
http://6MbFxw7F.rkfxc.cn
http://ZCFd6HEU.rkfxc.cn
http://iUeVxTtM.rkfxc.cn
http://mlRb5Zhy.rkfxc.cn
http://o5IPrMjF.rkfxc.cn
http://xCOSYaUJ.rkfxc.cn
http://gI2od1aZ.rkfxc.cn
http://WiGj23MN.rkfxc.cn
http://S4rPoG85.rkfxc.cn
http://OnUutB0n.rkfxc.cn
http://Zot1lL5P.rkfxc.cn
http://m8xWhBtR.rkfxc.cn
http://XGxnjg1D.rkfxc.cn
http://tv1bkEmX.rkfxc.cn
http://psqgMRsF.rkfxc.cn
http://DYQRmDoT.rkfxc.cn
http://2G3WGdtb.rkfxc.cn
http://Nfdbo4bl.rkfxc.cn

查看全文

http://www.dtcms.com/a/383039.html

全排列问题深度解析：用 Python 玩转 DFS 回溯与迭代

视觉智能的「破壁者」——Transformer如何重塑计算机视觉范式？三大CV算法论文介绍 ViTMAESwin Transformer

语言模型为何会产生幻觉

【Linux指南】Makefile入门：从概念到基础语法

【deepseek】官方API的申请和调用

ARM的GIC

＜自用文 acme.sh ＞使用 Cloudflare API 自动更新证书

vLLM - LLMEngine

天猫返利app的多租户架构设计：数据隔离与资源共享方案

数据库造神计划第六天---增删改查（CRUD）（2）

AI 赋能内容创作：从文案生成到视频剪辑，创作者的工具革命已至

如何使用“线程级微内核架构”打造应用

[硬件电路-219]：自由电子与空穴导电的比较（异同）

系统编程完结整理

阿里云视觉多模态理解大模型开发训练部署

leetcode_21 合并两个有序链表

Node.js实时截屏实现方案

01数据结构-01背包问题

20250914-01: Langchain概念：流式传输（Streaming）

初步认识 Spring Boot 自动装配

《突破Unity+腾讯云联机瓶颈：多人游戏同步延迟与数据安全的双维度优化》

计算机算术9-浮点乘法

第24课：项目实战与总结

【深度学习|学习笔记】从背景→公式→性质→梯度→何时用哪一个→数值稳定性与常见坑方面描述sigmoid和softmax函数！（一）

C++宽度优先搜索算法：队列与优先级队列

同步降压转换器原理

人工智能训练师三级备考笔记

＜基于深度学习的条纹图分析及其不确定性估计＞-论文总结

【愚公系列】《人工智能70年》020-语音识别的历史性突破（深度学习带来历史性突破）

网络操作系统与分布式操作系统的区别

相关文章：