当前位置：首页 > news >正文

云南建设工程网站制作app的费用

news 2025/9/28 0:21:46

云南建设工程网站,制作app的费用,怎样下载wordpress,海报设计大赛vllm 部署 Qwen2.5-VL-7B-Instruct-AWQ （ 基于 docker ） 作者项目不允许部署 Qwen2.5-VL-7B-Instruct 非量化版，因为作者目前是 4090 48G 魔改过的， 上面已经跑了一个ollama程序，导致显存只剩下了20G不到&#xff0c…

vllm 部署 Qwen2.5-VL-7B-Instruct-AWQ

（基于 docker ）

作者项目不允许部署 Qwen2.5-VL-7B-Instruct 非量化版，因为作者目前是 4090 48G 魔改过的，
上面已经跑了一个ollama程序，导致显存只剩下了20G不到，
如果是 24 G 内存，可以跑 Qwen2.5-VL-7B-Instruct 非量化版，操作一样

目前作者环境如下：

驱动	CUDA	显卡型号	显卡块数
560.35.03	12.6.1	4090 48G	8

下载模型

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct-AWQ --local_dir  /data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ

开始配置

docker 配置

vim /etc/docker/daemon.json
{
"registry-mirrors": ["https://docker.cloudmessage.top","https://kfp63jaj.mirror.aliyuncs.com","https://j47dskil.mirror.aliyuncs.com"],
"ipv6": false,
"max-concurrent-downloads": 10,
"log-driver": "json-file",
"log-level": "warn",
"log-opts": {
"max-size": "10m",
"max-file": "3"},"runtimes": {"nvidia": {"path": "/usr/bin/nvidia-container-runtime","runtimeArgs": []}},
"default-runtime": "nvidia",
"data-root": "/data/docker"
}

docker 安装 vllm

###镜像比较大16G多，还是先拉下来再运行
docker pull vllm/vllm-openai:latest

运行程序

docker run --runtime nvidia --gpus "device=0"   --name vllm-qwen2.5-vl-7b_AWQ \
-v /data/qwen2.5:/data/qwen2.5 \
-v /data/vllm_cache:/root/.cache/vllm \
-p 8110:8000 \
-e CUDA_VISIBLE_DEVICES=0 \
-d vllm/vllm-openai:latest \
--model /data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ \
--dtype float16 \
--block-size 16 \	
--use-v2-block-manager \
--max-num-batched-tokens 8192 \
--max-num-seqs 32--gpus "device=0"  # 指定显卡，0是第一块，1是第二块
--name vllm-qwen2.5-vl-7b_AWQ \ # docker 容器名称
-v /data/qwen2.5:/data/qwen2.5 \ # 模型存放目录
-v /data/vllm_cache:/root/.cache/vllm \ # vllm 目录
-p 8110:8000 \  # 映射端口
-e CUDA_VISIBLE_DEVICES=0 \ #强制容器仅使用 GPU 设备 0，因为容器中只能看到一块显卡
-d vllm/vllm-openai:latest \  # 指定镜像
--model /data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ \ # 指定模型
--dtype float16 \  # 混合精度推理
--block-size 16 \  #  KV缓存块大小	
--use-v2-block-manager \  # 新版显存管理器	
--max-num-batched-tokens 8192 \ # 最大批处理tokens（4096-16384）
--max-num-seqs 32 最大并发请求数

测试程序

# 创建虚拟环境
conda create -n qwenvl python=3.11 -y
conda activate qwenvl

vim vllm_ocr.py
import base64
import time  # 导入time模块
from openai import OpenAIdef encode_image(image_path):with open(image_path, "rb") as image_file:return base64.b64encode(image_file.read()).decode('utf-8')# 初始化 OpenAI 客户端
client = OpenAI(base_url="http://192.168.3.164:8110/v1",api_key="NOT_NEED"
)# 本地图片路径
image_path = "1744184033544.jpg"# 编码图片
base64_image = encode_image(image_path)# 记录开始时间
start_time = time.time()response = client.chat.completions.create(model="/data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ",# 仔细分析图片中的内容后，请以HTML结构化(含所有非表格文字)完整输出。\n注意：不需要 <style>标签messages=[{"role": "user","content": [{"type": "text", "text": "完整输出图中所有相关文字"},{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{base64_image}",},},],}],max_tokens=4096,
)# 计算耗时
elapsed_time = time.time() - start_timeprint(response.choices[0])
print(f"\n请求耗时: {elapsed_time:.2f}秒")  # 打印耗时，保留两位小数

python vllm_ocr.py

在这里插入图片描述

docker ps -a
docker logs -f vllm-qwen2.5-vl-7b_AWQ

在这里插入图片描述

1744184033544.jpg 图片内容如下

在这里插入图片描述

查看全文

http://www.dtcms.com/a/413533.html

企业网站规范wordpress中文开发文档

2345网址大全设主页怎么设置用仿网站做优化有效果吗

织梦网站档目管理空白致设计

网站页面设计方案wordpress主题外贸网站模板

河北唐山网站建设佳木斯建设工程交易中心网站

个人网站开发背景及意义网站开发报价单表格

南京建网站找哪家好wordpress视频笔记

网站不提交表单公司成立后网站建设

福州网站建设策划学it到哪里学比较好

做网站的前途百度竞价广告投放

广州网站设计培训班做网站的装饰标语

手机可以访问的网站怎么做做网站厂家

电子商务网站开发什么框架免费域名注册申请

辽宁网站建设招标注册网站需要什么条件

php网站后台登陆地址网址大全免费

山东网站建设公司哪家专业天长网站建设

门户网站设计思路江苏省企业年报网上申报入口

网站建设费是业务宣传费吗山东公司注册网站

国外网站视频播放器crm管理软件

东莞制作网站的联系方式大庆做网站

漫画网站php源码网站首页设计特点有哪些

做网站用的大图移动商城积分和积分区别

温州网站优化关键词电脑显示无法运行wordpress

足彩网站怎样做推广没有网站能做淘宝客吗

沈阳做公司网站的公司网站的程序怎么做的

手机论坛网站模板英国有哪些做折扣的网站有哪些

网站刷流量对网站有影响吗建站技术

网站制作者秀洲区住房和城乡建设局网站

在网站中加入锚链接应该怎么做石家庄市高新区建设局网站

编程scratch网站推广平台开户代理

vllm 部署 Qwen2.5-VL-7B-Instruct-AWQ

下载模型

开始配置

运行 程序

测试程序

相关文章：

运行程序