当前位置: 首页 > news >正文

快速搭建大模型web对话环境指南(open-webUI)

前言

本环境需 提前装好pytouch conda cuda nvidia驱动

环境准备参考之前文档:

​​​​​​wsl2 ubuntu子系统安装显卡驱动与cuda_wsl2显卡驱动-CSDN博客

ubuntu NVIDIA驱动安装_warning: this nvidia driver package includes vulka-CSDN博客

效果:

参考官方文档

open-webui:🏡 Home | Open WebUI

魔塔社区:通义千问3-0.6B

部署vllm大模型推理服务框架

创建虚拟环境

conda create -p /root/autodl-tmp/myenv  python=3.12

初始化conda

conda init

之后重新打开bash或刷新环境变量

source ~/.bashrc#之后可以看到命令行前面多了个(base) 这是进入到了conda默认环境
(base) root@autodl-container-b781468847-e1214d5b:~# 

进入刚刚创建的环境

conda activate /root/autodl-tmp/myenv #显示如下(base) root@autodl-container-b781468847-e1214d5b:~# conda activate /root/autodl-tmp/myenv 
(/root/autodl-tmp/myenv) root@autodl-container-b781468847-e1214d5b:~# 

安装模型下载组件modelscope与模型运行高性能推理服务框架vllm

pip install modelscope vllm

下载并部署大模型

创建大模型存储目录

mkdir -p /root/autodl-tmp/models/Qwen3-0.6B

下载模型到指定目录

modelscope download --model Qwen/Qwen3-0.6B --local_dir /root/autodl-tmp/m
odels/Qwen3-0.6B

使用vllm启动大模型

VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/models/Qwen3-0.6B --tensor-parallel-size 1 --max-model-len 32768# VLLM_USE_MODLESCOPE=true 是强制指定从modelscope启动模型,如果模型没有下载会自动从modelscope下载
# --tensor-parallel-size 1 使用一块儿显卡运行
# --max-model-len 32768 最大输入token

启动成功会提示

INFO 07-03 22:05:19 [api_server.py:1349] Starting vLLM API server 0 on http://0.0.0.0:8000
...
INFO:     Started server process [2840]
INFO:     Waiting for application startup.
INFO:     Application startup complete.

部署并启动open-webUI

创建open-webui的虚拟环境并安装open-webui

conda create -p /root/autodl-tmp/open-webui python=3.12
conda activate /root/autodl-tmp/open-webui/
pip install open-webui

启动open-webui (默认监听在8080端口)

open-webui serve

之后访问该8080端口

之后注册账号登录后 配置好本地vllm启动的大模型

可以看到刚刚启动的模型

之后就可以通过大模型开始对话了

http://www.dtcms.com/a/265842.html

相关文章:

  • 双向链表的实现
  • [创业之路-468]:企业经营层 - 使用“市场-需求-竞争”三维模型筛选细分市场(市场维度、客户需求维度、竞争维度)
  • JavaEE-Linux环境部署
  • Java 核心技术与框架实战十八问
  • 专题:2025即时零售与各类人群消费行为洞察报告|附400+份报告PDF、原数据表汇总下载
  • 模拟IC设计提高系列6-Library导入与新建Library
  • 微信小程序41~50
  • 区块链(私有链搭建和实现)
  • 【C++】访问者模式
  • PHP语法基础篇(八):超全局变量
  • 鸿蒙应用开发:从网络获取数据
  • UE5中的AnimNotify
  • KDD 2025 | 地理定位中的群体智能:一个多智能体大型视觉语言模型协同框架
  • rabbitmq 与 Erlang 的版本对照表 win10 安装方法
  • SPLADE 在稀疏向量搜索中的原理与应用详解
  • MCP 传输机制(Streamable HTTP)
  • 多线程知识
  • 21、MQ常见问题梳理
  • 映射阿里云OSS(对象存储服务)
  • [创业之路-467]:企业经营层 - 《营销管理》的主要内容、核心思想以及对创业者的启示
  • 【Spring boot】tomcat Jetty Undertow对比,以及应用场景
  • Qt 事件
  • 医科+AI!和鲸支持南京医科大学医学数据挖掘课程实践教学落地
  • CCLinkIE转EtherCAT:食品产线测厚仪的“精准心跳”如何跳动?
  • 重学React(二):添加交互
  • 运维服务部中级服务工程师面试试题
  • 【Spring篇09】:制作自己的spring-boot-starter依赖1
  • 服务器如何配置防火墙规则开放/关闭端口?
  • ROS2---话题重映射
  • 能生成二维码的浏览器插件来了