当前位置：首页 > news >正文

AI大模型微调教程6

news 2025/10/5 8:01:15

https://www.bilibili.com/video/BV1r9ieYhEuZ?spm_id_from=333.788.videopod.episodes&vd_source=3969f30b089463e19db0cc5e8fe4583a&p=22

1、目录

2、GPU时间计算

3、Distributed Computing

训练大模型的时候，没法在每张GPU上把完整的模型存下来，这个是有问题的。

通信上的开销。

Parameter Server活太多成了瓶颈。

核心问题：每个worker上的信息可以同步到所有节点上。

4、ZeRO-1/2/3 and FSDP

上面的逻辑在deepspeed的代码中。

5、Pipeline并行

每个GPU只能运行一个任务。

6、Flash Attention

Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness

解决的问题：计算复杂度下降 + Memory复杂度下降，且是精确的计算

核心思想：将Q、K、V分块，然后每个小块放在SRAM中计算，最后reduce output得到最终结果。

safe softmax：防止某个x过大导致float类型的计算溢出，溢出后会直接返回null。做法就是减去最大的x值即max值。

对于Block， $S_{21}$ 是计算 $K_{1}$ 对 $Q_{2}$ 的值。 $K_{1}$ 包含了一部分token， $Q_{2}$ 也包含了一部分的token。

当S中一行全部计算出来之后，就可以通过softmax计算权重值，再乘以V即可。

目前的O不是我们想要的值，因为权重只有部分的值，不全，所以最后得到的O2也是不正确的。

每次根据过去得到的m(x)和最新的x，更新m(x)的值即可。

我们不需要计算出完整的softmax的值，否则还是O(n2)的复杂度。

递归式方法求解。

7、KV Cache

8、Mixture of Experts Model

可以理解为一种集成模型。

训练多个expert使得有差异化，最后推理时只激活部分FFN。如果只激活1个，那么和之前的性能是等价的。

http://www.dtcms.com/a/442589.html

相关文章：

Python函数返回多个值完全指南：从基础到高级实战

好的手表网站wordpress 微信主题制作

「机器学习笔记2」机器学习系统设计：从理论到实践

北京网站建设公司华网制作移动端网站价格

RSS 阅读器：信息时代的便捷助手

memcpy 简单实现

com2com一个将远端串口数据转发到本地的工具

【人工智能通识专栏】第三十五讲：工作流（Workflow）

怎么制作网站教程视频网站建设情况

裕顺网站建设贵州住房城乡建设厅网站

Agent

第十章混合

Linux 网络和流量加密完整指南（第 1 部分）

宁波网站推广优化外包公司wordpress调用标签云

360怎么做网站要看网站是多少

北京专业网络直播制作seo与sem的区别和联系

乌市正规网站建设云主机服务器

API查询性能优化方案

从《标准日本语》初中级到日语进阶：你的水平定位与“开挂”学习指南

济南专业做网站公司备案做电影网站吗

做一套二级域名网站怎么做交换友情链接是什么意思

商业航天与数字经济（一）：从4G、5G得与失，看6G时代商业航天如何成为新经济引擎？

最好的免费logo设计网站快速html5网页设计的网站

使用 Amazon Bedrock AgentCore 构建医疗代理

海曙区建设局网站自动下单网站开发

Go语言：加密与解密详解

MySQL内外连接

注册功能网站建设制作人

免费创建单页网站中国外贸网站

Docker 完整教程 | 从基础到实战 (1-2)