当前位置: 首页 > news >正文

云南建设工程网站制作app的费用

云南建设工程网站,制作app的费用,怎样下载wordpress,海报设计大赛vllm 部署 Qwen2.5-VL-7B-Instruct-AWQ ( 基于 docker ) 作者项目不允许部署 Qwen2.5-VL-7B-Instruct 非量化版,因为作者目前是 4090 48G 魔改过的, 上面已经跑了一个ollama程序,导致显存只剩下了20G不到&#xff0c…

vllm 部署 Qwen2.5-VL-7B-Instruct-AWQ

( 基于 docker )

作者项目不允许部署 Qwen2.5-VL-7B-Instruct 非量化版,因为作者目前是 4090 48G 魔改过的,
上面已经跑了一个ollama程序,导致显存只剩下了20G不到,
如果是 24 G 内存,可以跑 Qwen2.5-VL-7B-Instruct 非量化版,操作一样

目前作者环境如下:

驱动CUDA显卡型号显卡块数
560.35.0312.6.14090 48G8

下载模型

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct-AWQ --local_dir  /data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ

开始配置

docker 配置

vim /etc/docker/daemon.json
{
"registry-mirrors": ["https://docker.cloudmessage.top","https://kfp63jaj.mirror.aliyuncs.com","https://j47dskil.mirror.aliyuncs.com"],
"ipv6": false,
"max-concurrent-downloads": 10,
"log-driver": "json-file",
"log-level": "warn",
"log-opts": {
"max-size": "10m",
"max-file": "3"},"runtimes": {"nvidia": {"path": "/usr/bin/nvidia-container-runtime","runtimeArgs": []}},
"default-runtime": "nvidia",
"data-root": "/data/docker"
}

docker 安装 vllm

###镜像比较大16G多,还是先拉下来再运行
docker pull vllm/vllm-openai:latest

运行 程序

docker run --runtime nvidia --gpus "device=0"   --name vllm-qwen2.5-vl-7b_AWQ \
-v /data/qwen2.5:/data/qwen2.5 \
-v /data/vllm_cache:/root/.cache/vllm \
-p 8110:8000 \
-e CUDA_VISIBLE_DEVICES=0 \
-d vllm/vllm-openai:latest \
--model /data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ \
--dtype float16 \
--block-size 16 \	
--use-v2-block-manager \
--max-num-batched-tokens 8192 \
--max-num-seqs 32--gpus "device=0"  # 指定显卡,0是第一块,1是第二块
--name vllm-qwen2.5-vl-7b_AWQ \ # docker 容器名称
-v /data/qwen2.5:/data/qwen2.5 \ # 模型存放目录
-v /data/vllm_cache:/root/.cache/vllm \ # vllm 目录
-p 8110:8000 \  # 映射端口
-e CUDA_VISIBLE_DEVICES=0 \ #强制容器仅使用 GPU 设备 0,因为容器中只能看到一块显卡
-d vllm/vllm-openai:latest \  # 指定镜像
--model /data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ \ # 指定模型
--dtype float16 \  # 混合精度推理
--block-size 16 \  #  KV缓存块大小	
--use-v2-block-manager \  # 新版显存管理器	
--max-num-batched-tokens 8192 \ # 最大批处理tokens(4096-16384)
--max-num-seqs 32 最大并发请求数

测试程序

# 创建虚拟环境
conda create -n qwenvl python=3.11 -y
conda activate qwenvl
vim vllm_ocr.py
import base64
import time  # 导入time模块
from openai import OpenAIdef encode_image(image_path):with open(image_path, "rb") as image_file:return base64.b64encode(image_file.read()).decode('utf-8')# 初始化 OpenAI 客户端
client = OpenAI(base_url="http://192.168.3.164:8110/v1",api_key="NOT_NEED"
)# 本地图片路径
image_path = "1744184033544.jpg"# 编码图片
base64_image = encode_image(image_path)# 记录开始时间
start_time = time.time()response = client.chat.completions.create(model="/data/qwen2.5/Qwen2.5-VL-7B-Instruct-AWQ",# 仔细分析图片中的内容后,请以HTML结构化(含所有非表格文字)完整输出。\n注意:不需要 <style>标签messages=[{"role": "user","content": [{"type": "text", "text": "完整输出图中所有相关文字"},{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{base64_image}",},},],}],max_tokens=4096,
)# 计算耗时
elapsed_time = time.time() - start_timeprint(response.choices[0])
print(f"\n请求耗时: {elapsed_time:.2f}秒")  # 打印耗时,保留两位小数
python vllm_ocr.py

在这里插入图片描述

docker ps -a
docker logs -f vllm-qwen2.5-vl-7b_AWQ

在这里插入图片描述

1744184033544.jpg 图片内容如下

在这里插入图片描述

http://www.dtcms.com/a/413533.html

相关文章:

  • 企业网站规范wordpress中文开发文档
  • 2345网址大全设主页怎么设置用仿网站做优化有效果吗
  • 织梦网站档目管理空白致设计
  • 网站页面设计方案wordpress主题 外贸网站模板
  • 河北唐山网站建设佳木斯建设工程交易中心网站
  • 个人网站开发背景及意义网站开发 报价单 表格
  • 南京建网站找哪家好wordpress视频笔记
  • 网站不提交表单公司成立后网站建设
  • 福州网站建设策划学it到哪里学比较好
  • 做网站的前途百度竞价广告投放
  • 广州网站设计培训班做网站的装饰标语
  • 手机可以访问的网站怎么做做网站厂家
  • 电子商务网站开发 什么框架免费域名注册申请
  • 辽宁网站建设招标注册网站需要什么条件
  • php网站后台登陆地址网址大全免费
  • 山东网站建设公司哪家专业天长网站建设
  • 门户网站设计思路江苏省企业年报网上申报入口
  • 网站建设费是业务宣传费吗山东公司注册网站
  • 国外网站视频播放器crm管理软件
  • 东莞制作网站的联系方式大庆做网站
  • 漫画网站php源码网站首页设计特点有哪些
  • 做网站用的大图移动商城积分和积分区别
  • 温州网站优化关键词电脑显示无法运行wordpress
  • 足彩网站怎样做推广没有网站能做淘宝客吗
  • 沈阳做公司网站的公司网站的程序怎么做的
  • 手机论坛网站模板英国有哪些做折扣的网站有哪些
  • 网站刷流量对网站有影响吗建站技术
  • 网站制作者秀洲区住房和城乡建设局网站
  • 在网站中加入锚链接应该怎么做石家庄市高新区建设局网站
  • 编程scratch网站推广平台开户代理