当前位置: 首页 > news >正文

论文导读 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复

 本期分享的是一篇SOSP 2023论文:

Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints

Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)

https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf

图片

摘要

  最近,大型深度学习模型引起了学术界和工业界的广泛关注。然而,由于大模型训练涉及大规模资源和较长的训练时间,训练过程中频繁发生故障。现有解决方案由于远程存储带宽的限制,故障恢复成本较高。

  本文提出Gemini——一种分布式训练系统,该系统通过将CheckPoint存储在主机设备的CPU内存中,实现大模型训练中的快速故障恢复。然而,简单地将CheckPoint存储在CPU内存中存在两个挑战:

  • 首先,故障发生时,CPU内存中的CheckPoint可用性无法保证。
  • 其次,由于训练和CheckPoint通信共享同一网络,CheckPoint通信 可能会干扰训练通信,影响训练吞吐量。

  为了解决这两个挑战,本文提出:

  • 1) 一种可证明接近最优的CheckPoint放置策略,以最大化从CPU内存检查点恢复故障的概率;
  • 2) 一种CheckPoint通信调度算法,以最小化甚至消除检查点通信对模型训练的干扰。

  评估表明,Gemini的总体故障恢复速度比现有解决方案快13倍以上。

  论文 | SOSP23 | Gemini:大模型 内存CheckPoint 快速故障恢复

相关文章:

  • 2025年渗透测试面试题总结-某一线实验室实习扩展(题目+回答)
  • [ctfshow web入门] 零基础版题解 目录(持续更新中)
  • 树莓派5中部署 开源 RF-DETR 实时目标检测模型
  • MySQL窗口函数学习
  • [WUSTCTF2020]CV Maker1
  • k8s 自动伸缩的场景与工作原理
  • Docker Desktop - WSL distro terminated abruptly
  • 关于jdk17安装后没有jre目录的解决办法
  • 机器人轨迹跟踪控制——CLF-CBF-QP
  • Redis-基本数据类型
  • 基于VMware的Cent OS Stream 8安装与配置及远程连接软件的介绍
  • 【7】基础入门篇 | YOLOv8 项目【训练】【验证】【推理】最简单教程 | YOLOv8必看 | 最新更新,直接打印 FPS,mAP50,75,95
  • NXP iMX8MP ARM 平台 EMQX 部署测试
  • C++自学笔记---数组和指针的异同点
  • 【11408学习记录】考研英语长难句解析 | 语法拆分+写作模板+真题精讲(附高分秘籍)
  • HTML5图片裁剪工具实现详解
  • LeetCode18四数之和
  • 【Redis】数据的淘汰策略
  • linux磁盘创建分区
  • 开源协议指南:主流许可证核心区别解析
  • 家庭宽带 用443端口做网站/4p营销理论
  • amz123/广东seo网络培训
  • 福田企业网站建设/北京seo推广优化
  • 如何做淘客网站/深圳互联网公司50强
  • 可视化编辑网站开发/他达拉非片正确服用方法
  • 公司邮箱如何申请/淘宝seo是什么意思