论文导读 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复
本期分享的是一篇SOSP 2023论文:
Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints
Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)
https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf
摘要
最近,大型深度学习模型引起了学术界和工业界的广泛关注。然而,由于大模型训练涉及大规模资源和较长的训练时间,训练过程中频繁发生故障。现有解决方案由于远程存储带宽的限制,故障恢复成本较高。
本文提出Gemini——一种分布式训练系统,该系统通过将CheckPoint存储在主机设备的CPU内存中,实现大模型训练中的快速故障恢复。然而,简单地将CheckPoint存储在CPU内存中存在两个挑战:
- 首先,故障发生时,CPU内存中的CheckPoint可用性无法保证。
- 其次,由于训练和CheckPoint通信共享同一网络,CheckPoint通信 可能会干扰训练通信,影响训练吞吐量。
为了解决这两个挑战,本文提出:
- 1) 一种可证明接近最优的CheckPoint放置策略,以最大化从CPU内存检查点恢复故障的概率;
- 2) 一种CheckPoint通信调度算法,以最小化甚至消除检查点通信对模型训练的干扰。
评估表明,Gemini的总体故障恢复速度比现有解决方案快13倍以上。
论文 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复