当前位置: 首页 > news >正文

安装vllm

ubuntu 22.04, RTX3080, cuda 12.1, cudnn 8.9.7,cuda和cudnn的安装参考:https://blog.csdn.net/m0_52111823/article/details/147154526?spm=1001.2014.3001.5501。

  1. 查看版本对应关系,下载12.1对应的whl包,https://github.com/vllm-project/vllm/releases/download/v0.8.3/vllm-0.8.3+cu121-cp38-abi3-manylinux1_x86_64.whl

  2. uv创建基于Python 3.11的虚拟环境,参考https://blog.csdn.net/m0_52111823/article/details/147154513?spm=1001.2014.3001.5502

    1. 修改xxx/bin/activate,提供必要的cuda变量引用。
  3. 开始安装whl包,然后安装setuptools包,因为vllm项目默认为没有该包。

  4. 激活环境,测试命令

    python -c "from vllm import LLM, SamplingParams; llm = LLM('facebook/opt-125m'); sampling_params = SamplingParams(temperature=0.8, top_p=0.95); outputs = llm.generate('Hello,', sampling_params); print(outputs[0].outputs[0].text)"
    
http://www.dtcms.com/a/126147.html

相关文章:

  • 【mllm】——x64模拟htp的后端无法编译debug
  • MySQL深分页问题
  • 【Code】《代码整洁之道》笔记-Chapter11-系统
  • Cuto壁纸 2.6.9 | 解锁所有高清精选壁纸,无广告干扰
  • 单细胞多组学及空间组学数据分析与应用
  • 《系统分析师-浏览试卷(一)总结》
  • 元生代品牌建设:平台实现工作流(comfyui)创建与技术文档说明
  • CVE-2025-32375 | Windows下复现 BentoML runner 服务器远程命令执行漏洞
  • JavaScript:基本语法
  • 电脑的usb端口电压会大于开发板需要的电压吗
  • 【从零开始学习JVM | 第二篇】HotSpot虚拟机对象探秘
  • ai-warp 开源的Platformatic Stackable 与 AI 服务交互
  • 快速idea本地和推送到远程仓库
  • .net 使用笔记
  • 【DDR 内存学习专栏 1. -- DDR 内存带宽与 CPU 速率】
  • 【Hadoop入门】Hadoop生态之Oozie简介
  • windows sc 创建删除服务
  • Java设计模式之享元模式:从入门到架构级实践
  • 断链保护装置常见故障及解决方法
  • 关于freertos的heap_4分配内存的方式以及首次适应算法
  • 【Docker】快速部署 Certbot 并为 Nginx 服务器配置 SSL/TLS 证书
  • AI反检测如何在TikTok养号中发挥关键作用?
  • springboot--页面的国际化
  • SSM aop切面编程的学习
  • 掌握C语言文件操作:从理论到实战指南
  • 一键精准采集单网页,告别手动复制粘贴
  • 【教学类-102-08】剪纸图案全套代码08——Python点状虚线优化版本02(有空隙)+制作1图2图6图24图
  • Matlab 非线性阻尼四分之一车体被动和模糊pid控制悬架对比
  • leetcode_15. 三数之和_java
  • [蓝桥杯]R格式(CC++双语版)