当前位置：首页 > news >正文

V100 部署qwen2.5-vl

news 2025/9/16 9:45:30

使用镜像部署llama.cpp

Docker images: ghcr.io/ggml-org/llama.cpp:server-cuda
https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

下载模型文件：

40地址：/home/migu/cdm/project/deepseek-r1/llm
地址：https://huggingface.co/samgreen/Qwen2.5-VL-32B-Instruct-GGUF/tree/main
在这里插入图片描述

然后进行docker compose 配置：

40地址：/home/migu/cdm/project/deepseek-r1/docker-compose.yml

services:xinference:# 使用指定版本的 GPU 镜像image: ghcr.io/ggml-org/llama.cpp:server-cuda# 容器名称（方便管理）container_name: llama# 重启策略：除非手动停止，否则总是重启restart: unless-stopped# GPU 配置（关键：允许容器访问 NVIDIA 显卡）deploy:resources:reservations:devices:- driver: nvidiacount: all  # 使用所有可用 GPU（也可指定数量，如 count: 1）capabilities: [gpu]# 端口映射：本地端口:容器端口（保持与之前一致）ports:- "8002:8000"# 数据卷挂载：持久化存储模型和配置volumes:- ./llm:/llm# 环境变量配置environment:- LOG_LEVEL=INFO  # 日志级别# 容器启动命令（与直接运行 Docker 时一致）command: -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --alias Qwen2.5-VL-32B-Instruct-awq --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 5120# docker run -v ./llm:/llm -p 8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 512

启动
| Docker compose up

文章转载自：

http://xuNNsajW.pxbrg.cn
http://k0j7vDIz.pxbrg.cn
http://Md03KePQ.pxbrg.cn
http://SMEAVoYZ.pxbrg.cn
http://4ZpRM610.pxbrg.cn
http://QZjj1iVh.pxbrg.cn
http://PABIxb8V.pxbrg.cn
http://gybK0Tf8.pxbrg.cn
http://by3moAlG.pxbrg.cn
http://u8YyAUio.pxbrg.cn
http://r1E6wngb.pxbrg.cn
http://hag69DXq.pxbrg.cn
http://JLYBGszS.pxbrg.cn
http://nWJqyf0o.pxbrg.cn
http://xp59DdBh.pxbrg.cn
http://O54gfspU.pxbrg.cn
http://hdDBE7xe.pxbrg.cn
http://CKULYysH.pxbrg.cn
http://YoJVY70B.pxbrg.cn
http://PVkDqPYR.pxbrg.cn
http://LxIuEkFF.pxbrg.cn
http://aFdViFhI.pxbrg.cn
http://tWiIJUWo.pxbrg.cn
http://HCv4K7NF.pxbrg.cn
http://PpmUZDiF.pxbrg.cn
http://Qi6J2IPv.pxbrg.cn
http://lCIdaR9D.pxbrg.cn
http://9R6EEtyH.pxbrg.cn
http://xzcUBgw9.pxbrg.cn
http://vvKjM7L2.pxbrg.cn

http://www.dtcms.com/a/385182.html

相关文章：

企业能源管控联网管理解决方案：为企业节能增效

[Dify] 实现“多知识库切换”功能的最佳实践

AI大模型开发（多模态+提示词）

专项智能练习（行为主义学习理论）

Java 大视界 -- Java 大数据实战：618 精准发券核销率 15%→42%（含生产级代码 + 避坑指南）

HarmonyOS 5.0应用开发——V2装饰器@local的使用

Redis数据结构：ZipList与Listpack

数据库选型指南：从需求分析到技术决策的全方位解析

Linex操作系统-Shell脚本（四）

浏览器为啥要对 JavaScript 定时器“踩刹车”？

Linux网络：socket编程TCP

基于python大数据的游戏数据分析系统的设计与实现

巧用ebpf排查linux网络问题

Android音频学习(十八)——混音流程

Android 开发布局问题：android:layout_weight 属性不生效

Android WorkManager的概念和使用

PyTorch实战——基于LSTM的情感分析模型

深入浅出 MySQL 的 MVCC：多版本并发控制的工作机制与应用

【完整源码+数据集+部署教程】衬衫组件图像分割系统： yolov8-seg-C2f-EMBC

知识图谱——语义搜索概念解析

[系统架构设计师]知识点（二十五）

9.15 ES6-变量-常量-块级作用域-解构赋值-箭头函数

第一章：走进 ES6

9.15 ES6-展开运算符-新增数组字符串方法-字面量对象简写

架构师成长之路-架构方法论

【CTF-WEB】表单提交（特殊参数：?url=%80和?url=@）（通过GBK编码绕过实现文件包含读取flag）

Java快速入门基础1

嵌入式跟踪宏单元ETM(Embedded Trace Macrocell)

[免费]基于Python的Django商品二手交易平台【论文+源码+SQL脚本】

「Memene 摸鱼日报 2025.9.15」Gemini 应用在美国 iOS 下载量超越 ChatGPT,西湖大学推出 AI 审稿系统