当前位置: 首页 > news >正文

AI大模型微调教程6

https://www.bilibili.com/video/BV1r9ieYhEuZ?spm_id_from=333.788.videopod.episodes&vd_source=3969f30b089463e19db0cc5e8fe4583a&p=22

1、目录

2、GPU时间计算

3、Distributed Computing

训练大模型的时候,没法在每张GPU上把完整的模型存下来,这个是有问题的。

通信上的开销。

Parameter Server活太多成了瓶颈。

核心问题:每个worker上的信息可以同步到所有节点上。

4、ZeRO-1/2/3 and FSDP

上面的逻辑在deepspeed的代码中。

5、Pipeline并行

每个GPU只能运行一个任务。

6、Flash Attention

Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness

解决的问题:计算复杂度下降 + Memory复杂度下降,且是精确的计算

核心思想:将Q、K、V分块,然后每个小块放在SRAM中计算,最后reduce output得到最终结果。

safe softmax:防止某个x过大导致float类型的计算溢出,溢出后会直接返回null。做法就是减去最大的x值即max值。

对于Block,S_{21}是计算K_{1}Q_{2}的值。K_{1}包含了一部分token,Q_{2}也包含了一部分的token。

当S中一行全部计算出来之后,就可以通过softmax计算权重值,再乘以V即可。

目前的O不是我们想要的值,因为权重只有部分的值,不全,所以最后得到的O2也是不正确的。

每次根据过去得到的m(x)和最新的x,更新m(x)的值即可。

我们不需要计算出完整的softmax的值,否则还是O(n2)的复杂度。

递归式方法求解。

7、KV Cache

8、Mixture of Experts Model

可以理解为一种集成模型。

训练多个expert使得有差异化,最后推理时只激活部分FFN。如果只激活1个,那么和之前的性能是等价的。

http://www.dtcms.com/a/442589.html

相关文章:

  • Python函数返回多个值完全指南:从基础到高级实战
  • 好的手表网站wordpress 微信 主题制作
  • 「机器学习笔记2」机器学习系统设计:从理论到实践
  • 北京网站建设公司华网制作移动端网站价格
  • RSS 阅读器:信息时代的便捷助手
  • memcpy 简单实现
  • com2com一个将远端串口数据转发到本地的工具
  • 【人工智能通识专栏】第三十五讲:工作流(Workflow)
  • 怎么制作网站教程视频网站建设情况
  • 裕顺网站建设贵州住房城乡建设厅网站
  • Agent
  • 第十章 混合
  • Linux 网络和流量加密完整指南(第 1 部分)
  • 宁波网站推广优化外包公司wordpress调用标签云
  • 360怎么做网站要看网站是多少
  • 北京专业网络直播制作seo与sem的区别和联系
  • 乌市正规网站建设云主机服务器
  • API查询性能优化方案
  • 从《标准日本语》初中级到日语进阶:你的水平定位与“开挂”学习指南
  • 济南专业做网站公司备案做电影网站吗
  • 做一套二级域名网站怎么做交换友情链接是什么意思
  • 商业航天与数字经济(一):从4G、5G得与失,看6G时代商业航天如何成为新经济引擎?
  • 最好的免费logo设计网站快速html5网页设计的网站
  • 使用 Amazon Bedrock AgentCore 构建医疗代理
  • 海曙区建设局网站自动下单网站开发
  • Go语言:加密与解密详解
  • MySQL内外连接
  • 注册功能网站建设制作人
  • 免费创建单页网站中国外贸网站
  • Docker 完整教程 | 从基础到实战 (1-2)