当前位置: 首页 > news >正文

V100 部署qwen2.5-vl

使用镜像部署llama.cpp

Docker images: ghcr.io/ggml-org/llama.cpp:server-cuda
https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

下载模型文件:

40地址:/home/migu/cdm/project/deepseek-r1/llm
地址:https://huggingface.co/samgreen/Qwen2.5-VL-32B-Instruct-GGUF/tree/main
在这里插入图片描述

然后进行docker compose 配置:

40地址:/home/migu/cdm/project/deepseek-r1/docker-compose.yml

services:xinference:# 使用指定版本的 GPU 镜像image: ghcr.io/ggml-org/llama.cpp:server-cuda# 容器名称(方便管理)container_name: llama# 重启策略:除非手动停止,否则总是重启restart: unless-stopped# GPU 配置(关键:允许容器访问 NVIDIA 显卡)deploy:resources:reservations:devices:- driver: nvidiacount: all  # 使用所有可用 GPU(也可指定数量,如 count: 1)capabilities: [gpu]# 端口映射:本地端口:容器端口(保持与之前一致)ports:- "8002:8000"# 数据卷挂载:持久化存储模型和配置volumes:- ./llm:/llm# 环境变量配置environment:- LOG_LEVEL=INFO  # 日志级别# 容器启动命令(与直接运行 Docker 时一致)command: -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --alias Qwen2.5-VL-32B-Instruct-awq --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 5120# docker run -v ./llm:/llm -p 8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 512

启动
| Docker compose up


文章转载自:

http://xuNNsajW.pxbrg.cn
http://k0j7vDIz.pxbrg.cn
http://Md03KePQ.pxbrg.cn
http://SMEAVoYZ.pxbrg.cn
http://4ZpRM610.pxbrg.cn
http://QZjj1iVh.pxbrg.cn
http://PABIxb8V.pxbrg.cn
http://gybK0Tf8.pxbrg.cn
http://by3moAlG.pxbrg.cn
http://u8YyAUio.pxbrg.cn
http://r1E6wngb.pxbrg.cn
http://hag69DXq.pxbrg.cn
http://JLYBGszS.pxbrg.cn
http://nWJqyf0o.pxbrg.cn
http://xp59DdBh.pxbrg.cn
http://O54gfspU.pxbrg.cn
http://hdDBE7xe.pxbrg.cn
http://CKULYysH.pxbrg.cn
http://YoJVY70B.pxbrg.cn
http://PVkDqPYR.pxbrg.cn
http://LxIuEkFF.pxbrg.cn
http://aFdViFhI.pxbrg.cn
http://tWiIJUWo.pxbrg.cn
http://HCv4K7NF.pxbrg.cn
http://PpmUZDiF.pxbrg.cn
http://Qi6J2IPv.pxbrg.cn
http://lCIdaR9D.pxbrg.cn
http://9R6EEtyH.pxbrg.cn
http://xzcUBgw9.pxbrg.cn
http://vvKjM7L2.pxbrg.cn
http://www.dtcms.com/a/385182.html

相关文章:

  • 企业能源管控联网管理解决方案:为企业节能增效
  • [Dify] 实现“多知识库切换”功能的最佳实践
  • AI大模型开发(多模态+提示词)
  • 专项智能练习(行为主义学习理论)
  • Java 大视界 -- Java 大数据实战:618 精准发券核销率 15%→42%(含生产级代码 + 避坑指南)
  • HarmonyOS 5.0应用开发——V2装饰器@local的使用
  • Redis数据结构:ZipList与Listpack
  • 数据库选型指南:从需求分析到技术决策的全方位解析
  • Linex操作系统-Shell脚本(四)
  • 浏览器为啥要对 JavaScript 定时器“踩刹车”?
  • Linux网络:socket编程TCP
  • 基于python大数据的游戏数据分析系统的设计与实现
  • 巧用ebpf排查linux网络问题
  • Android音频学习(十八)——混音流程
  • Android 开发布局问题:android:layout_weight 属性不生效
  • Android WorkManager的概念和使用
  • PyTorch实战——基于LSTM的情感分析模型
  • 深入浅出 MySQL 的 MVCC:多版本并发控制的工作机制与应用
  • 【完整源码+数据集+部署教程】衬衫组件图像分割系统: yolov8-seg-C2f-EMBC
  • 知识图谱——语义搜索概念解析
  • [系统架构设计师]知识点(二十五)
  • 9.15 ES6-变量-常量-块级作用域-解构赋值-箭头函数
  • 第一章:走进 ES6
  • 9.15 ES6-展开运算符-新增数组字符串方法-字面量对象简写
  • 架构师成长之路-架构方法论
  • 【CTF-WEB】表单提交(特殊参数:?url=%80和?url=@)(通过GBK编码绕过实现文件包含读取flag)
  • Java快速入门基础1
  • 嵌入式跟踪宏单元ETM(Embedded Trace Macrocell)
  • [免费]基于Python的Django商品二手交易平台【论文+源码+SQL脚本】
  • 「Memene 摸鱼日报 2025.9.15」Gemini 应用在美国 iOS 下载量超越 ChatGPT,西湖大学推出 AI 审稿系统