NVIDIA开源FP8训练新范式COAT:减少40%显存占用,训练速度提高1.4倍
https://mp.weixin.qq.com/s/OPPrnyj9366672-BWyrDkg
在深度学习快速发展的今天,大型语言模型(LLM)的训练面临着巨大的计算和内存压力。FP8低精度训练因其高效性备受关注,但现有方法仍无法充分优化内存使用。
COAT(Compressing Optimizer states And activations formemory-efficient FP8 Training)是伯克利、英伟达、MIT 和清华的研究者们提出的一种新方法。它通过DynamicRange Expansion和Mixed Granularity Quantization两大核心技术,实现Optimizer和Activation的FP8量化,从而将训练内存占用减少1.54倍,训练速度提升1.43倍,同时保持模型准确率。
COAT的出现使大型模型能够在更少的GPU上高效训练,并提升批量大小,为深度学习的规模化提供了新的可能。
论文标题:COAT: Compressing Optimizer States and Activation for memory efficient FP8 Training
论文链接:https://arxiv.org/abs/2410.19313
开源代码:https://github.com/NVlabs/COAT
3月22日上午11点 ,青稞Talk 第42期,COAT 第一作者、加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《COAT:显存高效的 FP8 训练,实现高效深度学习》。
分享嘉宾
席浩诚是加州大学伯克利分校计算机科学博士一年级学生,导师是Kurt Keutzer教授,研究方向为大型语言模型和扩散模型的高效训练与推理。本科毕业于清华大学姚班,师从陈键飞教授和朱军教授。他曾在英伟达实习研究FP8训练方法。他曾在ICMl、Neurips、ICLR等顶级会议上发表多篇论文,他的主要研究成果包括Sparse VideoGen、COAT、Jetfire等。
主题提纲
COAT:显存高效的 FP8 训练,实现高效深度学习
1、大模型 FP8 低精度训练的难点
2、COAT 框架两大核心技术
- 动态范围扩展 FP8 量化优化器状态
- 混合粒度 FP8 精度流
3、效果展示及应用实践
直播时间
3月8日(周六) 11:00 -12:00