AIGC-SD9、知识点
1、RMSNorm(RMS归一化)介绍
RMSNorm(RMS归一化)介绍-CSDN博客
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
https://zhuanlan.zhihu.com/p/691227850
十分钟读懂旋转编码(RoPE)
十分钟读懂旋转编码(RoPE)
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA - 科学空间|Scientific
1、RMSNorm(RMS归一化)介绍
RMSNorm(RMS归一化)介绍-CSDN博客
https://zhuanlan.zhihu.com/p/691227850
十分钟读懂旋转编码(RoPE)
十分钟读懂旋转编码(RoPE)
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA - 科学空间|Scientific