快速搭建大模型web对话环境指南(open-webUI)
前言
本环境需 提前装好pytouch conda cuda nvidia驱动
环境准备参考之前文档:
wsl2 ubuntu子系统安装显卡驱动与cuda_wsl2显卡驱动-CSDN博客
ubuntu NVIDIA驱动安装_warning: this nvidia driver package includes vulka-CSDN博客
效果:
参考官方文档
open-webui:🏡 Home | Open WebUI
魔塔社区:通义千问3-0.6B
部署vllm大模型推理服务框架
创建虚拟环境
conda create -p /root/autodl-tmp/myenv python=3.12
初始化conda
conda init
之后重新打开bash或刷新环境变量
source ~/.bashrc#之后可以看到命令行前面多了个(base) 这是进入到了conda默认环境
(base) root@autodl-container-b781468847-e1214d5b:~#
进入刚刚创建的环境
conda activate /root/autodl-tmp/myenv #显示如下(base) root@autodl-container-b781468847-e1214d5b:~# conda activate /root/autodl-tmp/myenv
(/root/autodl-tmp/myenv) root@autodl-container-b781468847-e1214d5b:~#
安装模型下载组件modelscope与模型运行高性能推理服务框架vllm
pip install modelscope vllm
下载并部署大模型
创建大模型存储目录
mkdir -p /root/autodl-tmp/models/Qwen3-0.6B
下载模型到指定目录
modelscope download --model Qwen/Qwen3-0.6B --local_dir /root/autodl-tmp/m
odels/Qwen3-0.6B
使用vllm启动大模型
VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/models/Qwen3-0.6B --tensor-parallel-size 1 --max-model-len 32768# VLLM_USE_MODLESCOPE=true 是强制指定从modelscope启动模型,如果模型没有下载会自动从modelscope下载
# --tensor-parallel-size 1 使用一块儿显卡运行
# --max-model-len 32768 最大输入token
启动成功会提示
INFO 07-03 22:05:19 [api_server.py:1349] Starting vLLM API server 0 on http://0.0.0.0:8000
...
INFO: Started server process [2840]
INFO: Waiting for application startup.
INFO: Application startup complete.
部署并启动open-webUI
创建open-webui的虚拟环境并安装open-webui
conda create -p /root/autodl-tmp/open-webui python=3.12
conda activate /root/autodl-tmp/open-webui/
pip install open-webui
启动open-webui (默认监听在8080端口)
open-webui serve
之后访问该8080端口
之后注册账号登录后 配置好本地vllm启动的大模型
可以看到刚刚启动的模型
之后就可以通过大模型开始对话了