当前位置: 首页 > news >正文

SGLang + 分布式推理部署DeepSeek671B满血版

部署设备:2×8×A100 80G,两台机器,每台机器8张A100。

模型:deepseek-671B-int8

模型下载地址:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8
模型参考:

1、SGLang Docker部署

github地址:sgl-project/sglang:SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。

下载 SGLang的docker镜像包,地址:lmsysorg/sglang Tags | Docker Hub,我用的0.4.7这个版本。

docker pull lmsysorg/sglang:v0.4.7-cu124

如果是内网机器,可以将docker镜像打包成.tar文件,传入服务器进行加载即可。

sudo docker load -i sglang_v0.4.7-cu124.tar

2、运行docker镜像

网口号查询,我的设置为ens...p0,大概是这样的。

IP -4 aexport | grep -i socket

在master机器上运行(请将模型放在两台机器的同一位置)

# master
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=网口号-e TP_SOCKET_IFNAME=网口号-e NCCL_SOCKET_IFNAME=网口号--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-1 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

在cluster机器上运行

#cluster
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=网口号-e TP_SOCKET_IFNAME=网口号-e NCCL_SOCKET_IFNAME=网口号--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-2 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

3、运行sglang服务

查看docker容器

sudo docker ps -a

在master机器上运行

sudo docker exec -it sglang-1 bash

在cluster机器上运行

sudo docker exec -it sglang-2 bash

在master机器上的docker中运行,记得替换master的IP,如果端口被占用就换个端口:

#master
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 0 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

在cluster机器上的docker中运行,记得替换master的IP,如果端口被占用就换个端口:

#cluster
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 1 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

这样就可以正常运行起来了,一定要注意参数是否正确。

docker额外操作

暂停所有运行的docker

sudo docker stop $(sudo docker ps -q)

删除docker容器

sudo docker rm -f 容器ID

http://www.dtcms.com/a/295837.html

相关文章:

  • 数据结构-5(二叉树)
  • pytorch-geometric包(torch_scatter、torch_sparse、torch_cluster)
  • 服务器带宽具体是指什么意思?
  • PyTorch中神经网络的模型构建
  • 钉钉DingTalk完整版下载离线安装包2025
  • 【小董谈前端】【样式】 CSS与样式库:从实现工具到设计思维的跨越
  • ThinkPHP8集成RabbitMQ的完整案例实现
  • C# 方法执行超时策略
  • [Python] -进阶理解5- Python 模块与包的导入机制解析
  • uniapp中mp-html使用方法
  • 特定日志输出aop实现
  • day62-可观测性建设-全链路监控zabbix+grafana
  • Redis的事务和Lua之间的区别
  • day13 flash
  • 「iOS」黑魔法——方法交换
  • 告别束缚:这款“隐形心电监测仪”让心脏健康管理更自由
  • JavaSE:开发环境的搭建(Eclipse)
  • 企业级数据分析创新实战:基于表格交互与智能分析的双引擎架构
  • 从0到1学习c++ 命名空间
  • 《 java 随想录》| 数组
  • MySQL的命令行客户端
  • 探索双链表:C语言中的链式结构魔法
  • 光谱仪杂散光性能分析
  • 大疆无人机炸机后视频损坏的完美修复案例解析
  • uni-file-picker vue3二次封装(本地上传 + v-model)
  • Mysql命令show processlist
  • Linux基础服务(autofs和Samba)
  • 论文阅读:《针对多目标优化和应用的 NSGA-II 综述》一些关于优化算法的简介
  • OpenCV —— color_matrix_numpy_mat_reshape
  • 新mac电脑软件安装指南(前端开发用)