当前位置：首页 > news >正文

论文导读 | SOSP23 | Gemini：大模型内存CheckPoint 快速故障恢复

news 2025/9/24 13:55:39

本期分享的是一篇SOSP 2023论文：

Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints

Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)

https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf

摘要

最近，大型深度学习模型引起了学术界和工业界的广泛关注。然而，由于大模型训练涉及大规模资源和较长的训练时间，训练过程中频繁发生故障。现有解决方案由于远程存储带宽的限制，故障恢复成本较高。

本文提出Gemini——一种分布式训练系统，该系统通过将CheckPoint存储在主机设备的CPU内存中，实现大模型训练中的快速故障恢复。然而，简单地将CheckPoint存储在CPU内存中存在两个挑战：

首先，故障发生时，CPU内存中的CheckPoint可用性无法保证。
其次，由于训练和CheckPoint通信共享同一网络，CheckPoint通信可能会干扰训练通信，影响训练吞吐量。

为了解决这两个挑战，本文提出：

1) 一种可证明接近最优的CheckPoint放置策略，以最大化从CPU内存检查点恢复故障的概率；
2) 一种CheckPoint通信调度算法，以最小化甚至消除检查点通信对模型训练的干扰。

评估表明，Gemini的总体故障恢复速度比现有解决方案快13倍以上。

论文 | SOSP23 | Gemini：大模型内存CheckPoint 快速故障恢复

http://www.dtcms.com/a/114635.html

相关文章：

2025年渗透测试面试题总结-某一线实验室实习扩展（题目+回答）

[ctfshow web入门] 零基础版题解目录(持续更新中)

树莓派5中部署开源 RF-DETR 实时目标检测模型

MySQL窗口函数学习

[WUSTCTF2020]CV Maker1

k8s 自动伸缩的场景与工作原理

Docker Desktop - WSL distro terminated abruptly

关于jdk17安装后没有jre目录的解决办法

机器人轨迹跟踪控制——CLF-CBF-QP

Redis-基本数据类型

基于VMware的Cent OS Stream 8安装与配置及远程连接软件的介绍

【7】基础入门篇 | YOLOv8 项目【训练】【验证】【推理】最简单教程 | YOLOv8必看 | 最新更新，直接打印 FPS，mAP50，75，95

NXP iMX8MP ARM 平台 EMQX 部署测试

C++自学笔记---数组和指针的异同点

【11408学习记录】考研英语长难句解析 | 语法拆分+写作模板+真题精讲（附高分秘籍）

HTML5图片裁剪工具实现详解

LeetCode18四数之和

【Redis】数据的淘汰策略

linux磁盘创建分区

开源协议指南：主流许可证核心区别解析

基于javaweb的SpringBoot汉服文化bbs系统设计与实现(源码+文档+部署讲解）

“Pseudo Global Warming”：伪全球变暖PGW

Diffusion-Based Planning for Autonomous Driving with Flexible Guidance论文细读

【奇点时刻】GPT4o新图像生成模型底层原理深度洞察报告

【Leetcode 994】腐烂的橘子 - 多源 BFS 解题思路与 Java 实现详解

Master节点重启k8s集群崩溃解决办法

AGI大模型（10）：prompt逆向-巧借prompt

Windows 系统下安装 Docker

构建网络练习题三道

idea快捷键 Spring endpoint actions in the editor