当前位置：首页 > news >正文

【部署满血Deepseek-R1/V3】大型语言模型部署实战：多机多卡DeepSeek-R1配置指南

news 2025/7/1 19:19:33

大家好！这里是迪小莫学AI，今天的文章是“”大型语言模型部署实战：多机多卡DeepSeek-R1配置指南“”

前言

随着大型语言模型的快速发展，如何高效部署这些模型成为技术团队面临的重要挑战。本文将分享基于DeepSeek-R1模型的多机多卡部署实践经验，帮助读者了解如何优化GPU资源利用，提高模型推理性能。

模型部署架构

硬件资源配置

为了达到最佳性能，我们采用了"每两台机器部署一个模型"的方案。实际测试表明，使用2台配备8张H100的机器，或2台配备8张H800的机器，性能表现相似，都能达到约20 token/s的总体吞吐量。

性能数据参考

单组模型（2台机器）在不同输入长度下的性能表现：

提示长度	最大令牌数	首令牌时间(秒)	每秒令牌数	总时间(秒)	总令牌数
7	8192	0.37	25.40	91.46	2323
8007	8192	11.14	19.98	94.24	1883
118007	8192	159.58	5.35	664.18	3551

并发性能表现：

并发请求	提示长度	最大令牌数	首令牌时间(秒)	每秒令牌数	总时间(秒)	总令牌数
1	7	8192	0.36	24.34	73.71	1794
8	7	8192	0.97	18.71	79.86	11979
16	7	8192	2.76	15.69	117.17	29496
32	7	8192	2.38	7.97	211.15	54220

模型信息

DeepSeek-R1相比于DeepSeek-V3，体量相同但数据经过优化，效果有明显提升。这些模型的开源仓库可通过搜索"deepseek-ai/deepseek-v3"找到。
例如魔搭社区和抱脸社区
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/files

SG-Lang多机多卡部署

设备支持与性能优化

硬件兼容性：H系列显卡支持FP8，而A100不支持。使用A100需要将FP8转换为BF16，模型大小会从642GB增加到超过1.3TB，因此需要至少4个A100节点。
关键优化参数：
- --enable-dp-attention：优化重复的KV缓存和内存使用，适合高并发场景
- --enable-torch-compile：延迟优化，提升3-4 token/s的速度
- --grammar-backend xgrammar：实现快速结构化输出
- --allow-auto-truncate：允许超长内容自动截断
内存管理：
在显存紧张时，可使用--mem-fraction-static 0.75参数降低静态内存分配比例

Docker部署指令模板

以下是多节点部署的Docker命令模板：

# 第一个节点
docker run -itd \--name llm_node1 \--gpus all \--shm-size 32g \--network=host \-v /本地模型路径:/容器模型路径 \--ipc=host \sglang容器镜像 \python3 -m sglang.launch_server \--model-path /容器模型路径/DeepSeek-R1 \--tp 16 \--dist-init-addr 主节点IP:端口 \--nnodes 2 \--node-rank 0 \--trust-remote-code \--host 0.0.0.0 \--port 服务端口 \--allow-auto-truncate# 第二个节点
docker run -itd \--name llm_node2 \--gpus all \--shm-size 32g \--network=host \-v /本地模型路径:/容器模型路径 \--ipc=host \sglang容器镜像 \python3 -m sglang.launch_server \--model-path /容器模型路径/DeepSeek-R1 \--tp 16 \--dist-init-addr 主节点IP:端口 \--nnodes 2 \--node-rank 1 \--trust-remote-code \--host 0.0.0.0 \--port 服务端口 \--allow-auto-truncate

高级优化配置

针对性能要求更高的场景，可以添加以下优化参数：

python3 -m sglang.launch_server --model-path /path/to/DeepSeek-R1 --tp 16 \--dist-init-addr 主节点IP:端口 \--nnodes 2 --node-rank 0 \--trust-remote-code \--host 0.0.0.0 --port 服务端口 \--max-running-requests 1024 \--enable-torch-compile \--enable-flashinfer-mla \--schedule-conservativeness 0.01

推测解码优化

使用Next-N推测解码可大幅提升性能：

--speculative-algorithm NEXTN \
--speculative-draft /path/to/DeepSeek-R1-NextN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4

实测性能对比：

优化方式	并发请求	首令牌时间(秒)	每秒令牌数
基础配置	1	2.13	18.28
基础配置	8	4.21	11.86
推测解码	1	0.38	30.44
推测解码	8	0.65	13.69

网络优化

对于使用InfiniBand网络的集群，可添加以下环境变量优化NCCL通信：

-e NCCL_DEBUG="INFO" \
-e "NCCL_SOCKET_IFNAME=网卡名称" \
-e NCCL_IB_HCA=mlx5_0,mlx5_1,mlx5_2,mlx5_3 \
-e NCCL_P2P_LEVEL=NVL \
-e NCCL_IB_GID_INDEX=0 \
-e NCCL_IB_CUDA_SUPPORT=1 \
-e NCCL_NET_GDR_LEVEL=2

其他推理架构对比

vLLM

vLLM是另一个常用的推理框架，支持多机部署。详细信息可搜索"vLLM Distributed Serving"。

ktransformers

支持在24G显存的设备上运行DeepSeek-R1/V3模型。预处理速度最高可达286 tokens/s，推理生成速度最高能达到14 tokens/s。

优点：

性能较高，追求CPU性能极限
适合单用户场景

缺点：

拓展性弱
无法支持高并发
需要新一代CPU

Unsloth

支持纯CPU、CPU+GPU混合或纯GPU模式，支持企业级并发，双卡A100可实现百人并发，每人14tokens/s，可与ollama和vllm集成。

常见问题与解决方案

进程终止问题

在某些部署环境中，可能遇到进程无法正常终止的问题。可通过修改sglang的utils.py文件中的kill_process_tree函数解决：

def kill_process_tree(parent_pid, include_parent: bool = True, skip_pid: int = None):"""Kill the process and all its child processes."""if parent_pid is None:parent_pid = os.getpid()include_parent = Falsetry:itself = psutil.Process(parent_pid)except psutil.NoSuchProcess:returnchildren = itself.children(recursive=True)for child in children:if child.pid == skip_pid:continuetry:child.kill()except psutil.NoSuchProcess:passif include_parent:if parent_pid == os.getpid():sys.exit(0)else:try:itself.kill()itself.send_signal(signal.SIGQUIT)except psutil.NoSuchProcess:pass

添加看门狗超时

为防止进程卡死，可添加watchdog参数：

--watchdog-timeout 3600  # 单位为秒，表示1小时

镜像与模型管理

镜像迁移

在无网络环境下迁移Docker镜像：

# 导出镜像
docker save -o llm_image.tar 镜像名称:标签# 导入镜像
docker load < llm_image.tar

模型迁移

使用rsync高效传输模型：

rsync -avP 源路径/DeepSeek-R1/ 目标路径/DeepSeek-R1/

总结

大型语言模型的部署是一项复杂的系统工程，需要考虑硬件资源、网络环境、软件栈等多方面因素。通过本文介绍的方法，可以在多机多卡环境中高效部署DeepSeek-R1等大模型，实现较高的推理性能和并发处理能力。

随着硬件和软件技术的不断进步，大模型部署方案也将持续演进。建议读者保持关注社区最新动态，不断优化自己的部署策略。

查看全文

http://www.dtcms.com/a/182681.html

spring boot lunar 农历的三方库引用，获取日期的农历值

Linxu实验五——NFS服务器

再度深入理解PLC的输入输出接线

计算机网络：什么是Mesh组网以及都有哪些设备支持Mesh组网？

网页五子棋对战测试报告

Backdrops 5.1.8| 每日更新高质量原创壁纸，解锁高级版，去除所有广告

Vision Transformer（ViT）

小程序多线程实战

Excel里面怎样批量去掉字串包含的标点符号

Kotlin 内联函数深度解析：从源码到实践优化

基于 Q-learning 的城市场景无人机三维路径规划算法研究，可以自定义地图，提供完整MATLAB代码

Best Video下载器——抖音视频去水印工具

AI日报 · 2025年5月10日｜OpenAI“Stargate”超级数据中心项目掀起美国各州争夺战

致远A8V5-9.0安装包（包含信创版）【附百度网盘链接】

【ML-Agents】ML-Agents示例项目导入unity报错解决

关于汇编语言与程序设计——单总线温度采集与显示的应用

解决 SQL Server 2008 导入 Excel 表卡在“正在初始化数据流”问题

前端取经路——现代API探索：沙僧的通灵法术

Axure疑难杂症：统计分析页面引入Echarts示例动态效果

Dia浏览器：AI驱动浏览网页，究竟怎么样？（含注册申请体验流程）

VUE CLI - 使用VUE脚手架创建前端项目工程

Linux——MySQL约束与查询

AI 助力，轻松进行双语学术论文翻译！

null 的安全操作 vs 危险操作

第7次课栈A

VScode密钥（公钥，私钥）实现免密登录【很细，很全，附带一些没免密登录成功的一些解决方法】

[架构之美]Spring Boot集成MyBatis-Plus高效开发（十七）

ODA服务器计算节点本地硬盘状态异常的处理

[架构之美]Windows系统安装MySQL 8.0详细图文教程（十八）

[手写系列]Go手写db — — 完整教程

前言