当前位置: 首页 > news >正文

NVIDIA开源FP8训练新范式COAT:减少40%显存占用,训练速度提高1.4倍

https://mp.weixin.qq.com/s/OPPrnyj9366672-BWyrDkg

在深度学习快速发展的今天,大型语言模型(LLM)的训练面临着巨大的计算和内存压力。FP8低精度训练因其高效性备受关注,但现有方法仍无法充分优化内存使用。

COAT(Compressing Optimizer states And activations formemory-efficient FP8 Training)是伯克利、英伟达、MIT 和清华的研究者们提出的一种新方法。它通过DynamicRange Expansion和Mixed Granularity Quantization两大核心技术,实现Optimizer和Activation的FP8量化,从而将训练内存占用减少1.54倍,训练速度提升1.43倍,同时保持模型准确率。


COAT的出现使大型模型能够在更少的GPU上高效训练,并提升批量大小,为深度学习的规模化提供了新的可能。


论文标题:COAT: Compressing Optimizer States and Activation for memory efficient FP8 Training
论文链接:https://arxiv.org/abs/2410.19313
开源代码:https://github.com/NVlabs/COAT

3月22日上午11点 ,青稞Talk 第42期,COAT 第一作者、加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《COAT:显存高效的 FP8 训练,实现高效深度学习》。

分享嘉宾

席浩诚是加州大学伯克利分校计算机科学博士一年级学生,导师是Kurt Keutzer教授,研究方向为大型语言模型和扩散模型的高效训练与推理。本科毕业于清华大学姚班,师从陈键飞教授和朱军教授。他曾在英伟达实习研究FP8训练方法。他曾在ICMl、Neurips、ICLR等顶级会议上发表多篇论文,他的主要研究成果包括Sparse VideoGen、COAT、Jetfire等。

主题提纲

COAT:显存高效的 FP8 训练,实现高效深度学习

1、大模型 FP8 低精度训练的难点
2、COAT 框架两大核心技术
- 动态范围扩展 FP8 量化优化器状态
- 混合粒度 FP8 精度流
3、效果展示及应用实践

直播时间

3月8日(周六) 11:00 -12:00

http://www.dtcms.com/a/80281.html

相关文章:

  • Linux目录操作学习总结
  • AI辅助的黑客攻击
  • docker最新源,及遇到问题+处理
  • 利用Python爬虫获取Shopee(虾皮)商品详情:实战指南
  • 【Linux】VMware 17 安装 VMware Tools
  • HAl库开发中断方式接收Can报文的详细流程
  • 深入自制Shell:解锁Linux进程控制的实践密码
  • Python散点密度图(Scatter Density Plot):数据可视化的强大工具
  • 深入理解ThreadLocal:线程安全的“独享空间”
  • 智慧共享杆:城市智能化管理的 “多面手”
  • Linux 用户与组管理实战:经验分享与最佳实践
  • Oracle OCP认证是否值得考?
  • Unity 中实例化预制体的完整过程
  • 第7章 类与面向对象
  • linux性能监控的分布式集群 prometheus + grafana 监控体系搭建
  • 华为终端销售模式转型变革项目总体汇报方案(183页PPT)(文末有下载方式)
  • WordPress漏洞
  • 【Vue3】01-vue3的基础 + ref reactive
  • 大白话详细解读函数之柯里化
  • AI全天候智能助手,为您构建私人数据库
  • JVM的组成--运行时数据区
  • Vue的根路径为什么不能作为跳板跳转到其他页面
  • 潮流霓虹酸性渐变液体流体扭曲颗粒边缘模糊JPG背景图片设计素材 Organic Textures Gradients Collection
  • 如何提高自动化测试的覆盖率?
  • C++的多态性及其实现方式
  • conda 常用命令
  • 提升模型性能:数据增强与调优实战
  • 微信小程序:用户拒绝小程序获取当前位置后的处理办法
  • RabbitMQ的高级特性介绍(一)
  • 05_Z-Stack无线点灯