当前位置：首页 > wzjs >正文

即时通讯网站开发源码宁波网络营销推广公司

wzjs 2025/7/20 10:10:05

即时通讯网站开发源码,宁波网络营销推广公司,学习建设网站,银川怎么做网站vllm 本地部署qwen2.5/Qwen2.5-32B-Instruct-AWQ 量化版模型因 ollama 并发效果没有 vllm 好，目前只能使用 vllm 部署 （ 基于 docker ） 目前作者环境如下： 驱动CUDA显卡型号显卡块数560.35.0312.6.14090 48G8 下载模型 mod…

vllm 本地部署qwen2.5/Qwen2.5-32B-Instruct-AWQ 量化版模型

因 ollama 并发效果没有 vllm 好，目前只能使用 vllm 部署

（基于 docker ）
目前作者环境如下：

驱动	CUDA	显卡型号	显卡块数
560.35.03	12.6.1	4090 48G	8

下载模型

modelscope download --model Qwen/Qwen2.5-32B-Instruct-AWQ  --local_dir  /data/qwen2.5/Qwen2.5-32B-Instruct-AWQ

开始配置

docker 配置

vim /etc/docker/daemon.json
{
"registry-mirrors": ["https://docker.cloudmessage.top","https://kfp63jaj.mirror.aliyuncs.com","https://j47dskil.mirror.aliyuncs.com"],
"ipv6": false,
"max-concurrent-downloads": 10,
"log-driver": "json-file",
"log-level": "warn",
"log-opts": {
"max-size": "10m",
"max-file": "3"},"runtimes": {"nvidia": {"path": "/usr/bin/nvidia-container-runtime","runtimeArgs": []}},
"default-runtime": "nvidia",
"data-root": "/data/docker"
}

docker 安装 vllm

###镜像比较大16G多，还是先拉下来再运行
docker pull vllm/vllm-openai:latest

运行程序

--dtype float16 \  # 混合精度推理
--block-size 16 \  #  KV缓存块大小	
--use-v2-block-manager \  # 新版显存管理器	
--max-num-batched-tokens 8192 \ # 最大批处理tokens（4096-16384）
--max-num-seqs 32 最大并发请求数# 以此类推 8 块卡
# 第一块卡 显存占用了 70%，留了30% 给 openwebui 使用docker run --runtime nvidia --gpus "device=0" --name vllm-qwen2.5-32b_AWQ \
--restart always \
-v /data/qwen2.5:/data/qwen2.5 \
-v /data/vllm_cache:/root/.cache/vllm \
-p 8000:8000 \
-e CUDA_VISIBLE_DEVICES=0 \
-d vllm/vllm-openai:latest \
--model /data/qwen2.5/Qwen2.5-32B-Instruct-AWQ \
--dtype float16 \
--block-size 16 \
--use-v2-block-manager \
--gpu-memory-utilization 0.7 \
--max-num-batched-tokens 8192 \
--max-num-seqs 32 \
--max_model_len 8192docker run --runtime nvidia --gpus "device=1" --name vllm-qwen2.5-32b_AWQ_01 \
--restart always \
-v /data/qwen2.5:/data/qwen2.5 \
-v /data/vllm_cache:/root/.cache/vllm \
-p 8111:8000 \
-e CUDA_VISIBLE_DEVICES=0 \
-d vllm/vllm-openai:latest \
--model /data/qwen2.5/Qwen2.5-32B-Instruct-AWQ \
--dtype float16 \
--block-size 16 \
--use-v2-block-manager \
--gpu-memory-utilization 1 \
--max-num-batched-tokens 8192 \
--max-num-seqs 32 \
--max_model_len 8192

测试程序

# 创建虚拟环境
conda create -n qwenvl python=3.11 -y
conda activate qwenvl# 安装模块pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simplepip install git+https://github.com/huggingface/transformers acceleratepip install torch  -i https://pypi.tuna.tsinghua.edu.cn/simplepip install flash-attn --no-build-isolation  -i https://pypi.tuna.tsinghua.edu.cn/simplepip install "huggingface_hub[hf_transfer]"  -i https://pypi.tuna.tsinghua.edu.cn/simplepip install modelscope  -i https://pypi.tuna.tsinghua.edu.cn/simplepip install qwen_vl_utils  -i https://pypi.tuna.tsinghua.edu.cn/simple

from openai import OpenAI
import time# 记录开始时间
start_time = time.time()try:client = OpenAI(base_url="http://192.168.0.88:8110/v1",api_key="NOT_NEED")# 测试列出可用模型print("Available models:", [m.id for m in client.models.list().data])# 调用模型response = client.chat.completions.create(model="/data/qwen2.5/Qwen2.5-32B-Instruct-AWQ",messages=[{"role": "system", "content": "You are a helpful assistant."},# {"role": "user", "content": "Give me a short introduction to large language model."}{"role": "user", "content": "请始终使用中文回答用户问题"}],max_tokens=512,timeout=30.0)# 输出结果和耗时print("\nResponse:", response.choices[0].message.content)print(f"\nTime used: {time.time()-start_time:.2f} seconds")except Exception as e:print(f"Error: {str(e)}")print(f"Time used: {time.time()-start_time:.2f} seconds")

openwebui

docker run --gpus all -d \
-p 13000:8080 \
--add-host=host.docker.internal:192.168.0.100 \
-v open-webui-data:/app/backend/data \
-e OLLAMA_API_BASE_URL=http://192.168.0.100:8000 \
--name open-webui-vllm \
--restart always \
registry.cn-shenzhen.aliyuncs.com/funet8/open-webui:cuda

配置docker 容器中配置

docker exec -it  openwebui-vllm /bin/bash
设置完成之后，去到服务器上，进到这个docker容器中
apt update
apt install -y iputils-ping vim net-tools telnet
# 查看IP
ifconfigvim /etc/hosts
192.168.0.100   host.docker.internal退出容器
在 iptables 中 放开所有
iptables -I INPUT -s 172.17.0.11 -p tcp --dport 8110 -j ACCEPT
service iptables save 													默认的是访问8000端口，如果想改为其他端口
docker exec -it open-webui /bin/bash
进到容器中
/app/backend# vim config.py
:%s/11434/11449/g  (改为你想修改的端口即可)
docker restart open-webui

登录到 openwebui

http://192.168.0.100:13000 # 注册账户，通过自己的邮箱创建就行

登录上来发现如果找不到模型，如下配置即可
点击 左下角的设置

在这里插入图片描述

刷新，在重新进网页，发现模型已经有了也可以查看 docker 日志
docker logs -f  openwebui

查看全文

http://www.dtcms.com/wzjs/22781.html

设计师服务平台破解长春百度seo公司

做徽章的网站东莞营销网站建设

设计素材网站免费大全最新太原今日新闻最新头条

平台做网站点击seo优化效果怎么样

潍坊网站建设选聚搜网络什么是搜索引擎营销?

做网站建设哪家公司靠谱长春seo外包

那个网站是专门做渔具的石家庄seo网站排名

帝国cms 7.2 门户网站模版做网站设计的公司

旅游网站怎么用dw做站内关键词自然排名优化

化妆品网站设计开题报告武汉网站制作推广

上海网站制作网站制作公司网站开发从入门到实战

微商软件商城24小时自学seo大概需要多久

成都网站制作工具百度文库首页

编程机构对网站外部的搜索引擎优化

怎么查寻一个网站做的竞价中国产品网

网站站点连接不安全技能培训机构排名前十

宝安网站开发上海百度提升优化

深圳个性化网站建设公司搜索引擎优化方法总结

sogo提交网站入口上海网站优化公司

百度网站建设是什么计算机培训课程

怎样做班级网站百度指数特点

wordpress好主题网站seo运营培训机构

江岸区建设局网站营销号

网站建设业务员培训公司如何在百度宣传

电子商务网站建设主题女排联赛排名

网站日常维护做的来不浙江seo外包

做网站要会哪些软件宁波免费建站seo排名

一个ecs服务器建设多个网站站内关键词排名优化软件

网站做移动适配seo上海公司

怎么介绍vue做的购物网站项目中国新冠疫情最新消息

vllm 本地部署qwen2.5/Qwen2.5-32B-Instruct-AWQ 量化版 模型