当前位置：首页 > news >正文

【cs336学习笔记】[第11课]如何用好scaling law

news 2025/9/9 3:53:53

文章目录

回顾- $μP\mu P$
不同模型的 scaling law
- Cerebras-GPT
- - 超参数调优策略
  - $μP\mu P$ 参数化
  - 设定经验值
- MiniCPM
- - 技术点1：用 $μP\mu P$ 稳定 scaling
  - 模型大小与数据的权衡关系
- DeepSeek
- Llama-3 scaling law
- Hunyuan scaling law
- MiniMax scaling law
- 总结
深入理解 $μP\mu P$
- 推导-关于初始化
- 推导-关于学习率
- 回顾：scaling in the wild

学习目标

什么是扩展大模型的最佳实践？
* chinchilla研究缩放定律的方法真的有效吗？
* 在训练和拟合这些东西时我们可以节省计算吗？
* 是否应该选择特定的架构或参数化方法，以便更好地进行扩展？

回顾- $μP\mu P$

当我们训练这些模型并使其更大时，我们需要调整某些超参数，如图左侧所示。可以看到当模型更宽（比如在MLP层的hidden size 增加）时，最优学习率会向左调整。因此需要为更大模型使用更小的学习率。

缺点是，这意味着在大规模训练时需要反复调整学习率，这将非常耗费计算资源。

另一方面，如果我们能重新参数化模型，使得最优学习率在整个规模范围内保持不变，就能大大简化我们的搜索流程。

我们希望所有超参数，在不同规模下保持稳定，这才是理想状态。

而 $μP\mu P$ 是一类非常有趣的处理方法。

在这里插入图片描述

不同模型的 scaling law

每个模型都采用了截然不同的扩展策略，它们也教会我们如何正确实现扩展。

在这里插入图片描述

Cerebras-GPT

这是一个大型模型家族，训练了从0.1到130亿参数的模型，采用 chinchilla 训练方案。参数与token数量的比例大致最优，达到理想水平。

他们有一个非常重要的核心发现，即扩展 $μP\mu P$ 方法，使扩展更加稳定，处理起来也更顺畅。

蓝色实线是 Cerebras-GPT，蓝色虚线是 Cerebras-GPT的scaling law，橙色实线是 Cerebras-Gpt 的 $μP\mu P$ 。可以看到， $μP\mu P$ 展示了更平滑的扩展效果，甚至优于 Pythia 或 GPT-J

在这里插入图片描述

超参数调优策略

当使用标准参数化训练模型时, 发现在预测的 scaling point （虚线）附近存在较大的振荡现象（蓝色实线）。

出现振荡是因为，他们必须根据模型规模调整学习率。因此，他们很难真正精确地达到预测的性能。

另一方面，如果他们用 $μP\mu P$ 缩放方法，会得到橙色实线，和 $μP\mu P$ 版本的 scaling point 拟合结果更加接近。

他们的主张是，使用这种替代的参数化方法，能够让他们获得更可预测的模型缩放效果，并进行更方便的超参数调优。

在这里插入图片描述

$μP\mu P$ 参数化

SP：Standard Parameterization，标准参数化
$μP\mu P$ ：Maximal Update，最大更新版本

$μP\mu P$ 的方法是，每个非嵌入层的参数都用 1/width 来初始化，每层的学习率按 1/width 进行缩放。例如
$\begin{array}{c} W_{\mathrm{qkv}} \sim N_{\text {trunc }}\left(0, \sigma_{\text {base }}^{2} / m_{\text {width }}\right) \\ \eta_{\mathrm{qkv}}=\eta_{\text {base }} / m_{\text {width }} \end{array}$

和 SP 相比，即使在初始化时采用了 1/width 的缩放，实际上每层的学习率是不同的。
在这里插入图片描述

设定经验值

将 $μP\mu P$ 这种能让超参数选择更稳定的策略，和非常激进的缩放结合起来。

具体做法是，将模型的规模一直缩小到4000万个参数，并在这个小模型上进行了广泛的超参数搜索，再用 $μP\mu P$ 方法将模型放大，以便尽可能保持超参数的稳定性。

图中每个点都代表一次模型运行，每个点都对应一组超参数，然后选择最小值。这类似于一种超参数网格。

在这里插入图片描述

总结：实现 $μP\mu P$ 时，初始化会改变，层的学习率会改变

MiniCPM

https://arxiv.org/pdf/2404.06395

表面的目标是，使用大量计算资源来训练真正优秀的小模型。

在此过程中，他们进行了大量的 scaling 计算，也用 $μP\mu P$ 来稳定和简化 scaling。

当他们最终扩展这些模型时，不是在模型大小上，而是在数据量上。

在这里插入图片描述

结果上看，训练了一批非常好的1.2B-2.4B 的模型。
在这里插入图片描述

技术点1：用 $μP\mu P$ 稳定 scaling

在小规模下选择超参数，希望它们保持稳定，再扩展到大模型。

对于嵌入层，只乘了一个常数缩放因子 scale_emb
对于残差层，通过 $scale_depth/num_layersscale\_depth / \sqrt{num\_layers}$ 进行缩放
初始化 tensors 时，用 $init_std/dm/dbaseinit\_std/\sqrt{d_m/d_{base}}$ （dm：d_model，d_base：基础宽度）
学习率也会根据模型的宽度进行缩放
heda也是类似的缩放策略

在这里插入图片描述
某种程度上，依赖于你的最佳学习率保持稳定，所以你会大致保持这些数值稳定。

从 9M 到 0.5B，获得了大约 5 倍的计算资源节省。然后就可以利用这一点，确定是否找到了随规模变化的最佳 Batch size。

在这里插入图片描述

随着模型变大，损失会降低。随着损失降低，你可以使用越来越大的 batch size。

临界 batch size，是收益递减的拐点。对于我当前操作下的，给定模型大小和 scaling，训练这些模型，合适的 batch size 是多少。

横坐标是batch size，

垂直线代表的是一条单一的训练曲线，然后拟合二次函数，试图找出最小值。

红线代表的是，随着我们向上移动，所有这些点的最小值。

在这里插入图片描述
图上预测的是你试图训练达到的损失，和临界 batch size 点上的 batch size。

可以看到，有一个对数-对数的线性关系，在目标损失和 batch size 之间。

在这里插入图片描述
Batch size 会随着目标损失和计算量的变化而调整。

图上展示的是，不同的模型大小（从浅色代表的小模型，到深色代表的大模型），使用了不同的学习率。其中大模型出于计算量考虑，只运行了一小段时间。

有一个相对宽的平坦区域，然后随着模型变得非常不稳定而急剧上升。重点是，最小值（横坐标为0.01）在相对大的模型数量级范围内保持固定。

正确地缩放模型初始化和每层学习率，可以避免调整学习率。

在这里插入图片描述

模型大小与数据的权衡关系

假设我想拟合一个 chinchill scaling law，需要改变 token 的数量和模型大小。这样做时，会固定一个模型大小，然后训练一个模型越来越长时间。

如果能提前停止并获取模型的检查点就太好了，并让它代表数据集大小的变化。（因为早期的检查点对应着较少的数据，这样我就能用一次运行来收集数据缩放的信息）

但是！不同数据目标的余弦学习率是不同的。如果数据量非常少，余弦曲线会上升得很快，或者说，预热阶段总是相同的，但冷却阶段非常快。如果数据量很大，余弦曲线会很缓慢地下降到底部。

也就是说，少量数据训练运行的学习率，和大数据训练的会不同。

所以！你不能只用一次余弦学习率模型的运行结果，试图从中获取早期检查点，并基于此推断数据缩放行为！

为了避免这种情况，你通常需要把一个模型从头训练到每个目标，这意味着要进行 n² 次运行。尽管有些运行规模较小, 但必须运行大量实验, 每个都有终止点, 而非单次运行收集检查点, 感觉这样做有点没意义。

在这里插入图片描述

解决方案：WSD（Warmup Stable Decay，预热-稳定-衰减） learning rate

图中黄线显示的是余弦学习率，有一个预热期（上升部分），通常非常短，以达到完整的学习率。然后曲线逐渐下降，到终止点附近，可能会停留在最小学习率。

WSD：梯形学习率。首先和余弦曲线一样有预热阶段，然后是一个平坦的稳定阶段，接着是衰减阶段，快速将学习率降到最低。

WSD的优点是，你可以重用稳定阶段。

在这里插入图片描述
实验效果很好！

黄色线是余弦学习率，其他颜色的线是WSD。

两种曲线效果都不错，但WSD胜在不必担心终止点，可以重复 cool down，以获得不同数据量的检查点。
在这里插入图片描述

其他估计 chinchilla曲线的方法
研究目标：当你不断添加更多数据时，你的损失比你按照chinchilla进行缩放要差多少？

随着 token 与参数比率的提高，模型会退化多少？

在这里插入图片描述
现在有了 WSD，可以进行一次训练，来分析 chinchilla

方法1：叠加所有学习曲线，取 下包络线，大致遵循幂律
方法3：联合拟合方程2，假设这个双变量缩放定律，然后将它拟合到你拥有的所有数据，以曲线拟合的方式。通过这种拟合，可以求解出最优的 token/数据比例。

在这里插入图片描述

chinchilla 方法一的结果：
趋势并非完全线性，但是基本可以从计算量推导出 token 比例。
在这里插入图片描述
方法三的结果：
等高线是他们拟合的曲线，每个点是为拟合 chinchilla 参数而进行的小规模实验。

结论是，token/参数比例非常高，他们认为 Llama 风格的架构都应该有更高的比例，因为数据质量和模型效率都得到了提升。

经过仔细的优化和调优，我们应该能够远远超越“模型大小的20倍”这一经验法则。

在这里插入图片描述
最终，scaling 曲线拟合结果，看起来很不错。

在这里插入图片描述

DeepSeek

在这里插入图片描述

在这里插入图片描述
Deepseek V1 和 MiniCPM、Cerebras-GPT 的区别在于，不使用任何 $μP\mu P$ ，直接尝试估计最优的 batch size 和最优的学习率。

具体做法是，选取两个较小模型，在不同的batch size上进行网格搜索，以及对不同的学习率网格搜索，并得到在网格上的损失值。这样可以找到最佳的 batch size 和学习率。

在这里插入图片描述

训练一堆模型，用不同数量的非嵌入层的浮点运算量，在网格上改变batch size和学习率。这样，得到不同 scale 下的最佳 batch size和最佳学习率。

在这里插入图片描述
deepseek做了一个chinchilla的分析，并使用了WSD风格的学习率试图从本质上最小化重复工作的量。

先warm up，然后stable，接着两组衰减（计算量大概是20%），直至衰减到0。
在这里插入图片描述
在不同的计算 scale 下，有不同的二次关系（左图），沿着二次曲线的底部画一条线，就是最优的 flops for token，以及作为训练 flops 函数的最优 token 大小。

最后，deepseek得到了一个拟合的缩放定律。

在这里插入图片描述

Llama-3 scaling law

最优的比例是，39:1。通过拟合sigmoid函数对困惑度和准确率进行转换。

chinchilla的最优比例是 20:1

Hunyuan scaling law

token ：参数 = 96：1

Q：为什么大家都在复现chinchilla？
A：因为很多人想搞清楚，能把 token 和参数的比例推到多极致，希望能保持在这个比例的上限。比如数据比参数多，这样人们才会真正使用我们的模型。

在这里插入图片描述

MiniMax scaling law

minimax 1是一种长上下文的语言模型，基于线性注意力。

核心思想是，采用softmax注意力机制（平方复杂度），以及 lightening attention（是一种线性注意力），做一个混合版本。

他们想弄清楚，在模型性能方面，从softmax注意力变成线性注意力或混合注意力，需要付出多少代价。

结论是，线性注意力或混合注意力，性能和softmax注意力相同
在这里插入图片描述

总结

CerebrasGPT
• 使用 muP 使超参数保持缩放不变
• 直接使用 Chinchilla 缩放公式
DeepSeek 秘诀
• 假设大多数 Transformer 超参数保持缩放不变
• 对批量/LR 进行缩放分析，以确定最佳缩放比例
• IsoFLOP 分析以确定模型大小

使用分段线性调度，以降低 Chinchilla 缩放成本。

miniCPM 秘诀
• 使用 muP 使 Transformer + LR 保持缩放不变
• 使用分段线性调度获取 Chinchilla 方法 3（曲线拟合）的样本
LLaMA 3 / Hunyuan
近期（2024 年末及以后），但细节较少
• 仅使用 IsoFLOP（无其他缩放细节）Minimax
• 架构选择/决策缩放

深入理解 $μP\mu P$

三个部分：初始化、学习率、batch size

$μP\mu P$ 并不是训练模型必须的，只是一种尝试，让偏移尽可能小。如果找到了合适的学习率，就不需要 $μP\mu P$

在这里插入图片描述

$μP\mu P$ 基于以下断言：在训练神经网络时，作为网络宽度 $𝑛_𝑙$ 的函数……

A1：初始化时的激活值应保持为 Θ(1) 的量级
A2：经过一个梯度步骤后，激活值的变化应为 Θ(1) 的量级

保持为 Θ(1) 的量级，是指在一个常数范围内，不要太大也不要太小。

如果违反了这些条件，意味着模型变大，要么初始激活值会爆炸式增长或消失，要么在一次梯度更新后，激活值会爆炸式增长或消失。

注意这里说的是单个激活值。

在这里插入图片描述

推导-关于初始化

第一个条件是，希望激活值保持稳定。于是对初始化施加了某种约束。

假设我们有一个简单的深度线性网络 $h_{l}=W_{l} h_{l-1}$

$h_{l}$ ：在第 l 层的激活值
$W_{l}$ ：第 l 层权重矩阵的函数
$h_{l-1}$ ：在第 l-1 层的激活值

初始化选择高斯初始化， $Wl∼N(0,σlInl×nl−1)W_{l} \sim N\left(0, \sigma_l I_{n_{l} \times n_{l-1}}\right)$

均值为0
$Inl×nl−1I_{n_{l} \times n_{l-1}}$ ：将是矩形大小的，维度取决于激活值的维度
$σl\sigma_l$ ：超参数，也就是这一层这个矩阵的噪声尺度

让 l 和 l-1 趋于无穷大，W就会集中：
$∥Wl∥∗→σ(nl−1+nl)（1）\left\|W_{l}\right\|_{*} \rightarrow \sigma\left(\sqrt{n_{l-1}}+\sqrt{n_{l}}\right) （1）$

重要的是，这个等价关系是成立的：
$∥hl∥2≈∥Wl∥∗∥hl−1∥2(2)\left\|h_{l}\right\|_{2} \approx\left\|W_{l}\right\|_{*}\left\|h_{l-1}\right\|_{2} (2)$

层 l 的激活值范数，将近似等于 $W_{l}$ 的算子范数乘以 $h_{l-1}$ 的激活范数
基于 $W_{l}$ 和 $h_{l-1}$ 是独立的假设

现在，选择一个特定的 $σ\sigma$ ，如果输入维度远大于输出维度，就会起作用。
$σ=nlnl−1(nl+nl−1)−1=Θ(1nl−1min⁡(1,nlnl−1))(3)\sigma=\frac{\sqrt{n_{l}}}{\sqrt{n_{l-1}}}\left(\sqrt{n_{l}}+\sqrt{n_{l-1}}\right)^{-1}=\Theta\left(\frac{1}{\sqrt{n_{l-1}}} \min \left(1, \sqrt{\frac{n_{l}}{n_{l-1}}}\right)\right) (3)$

通过归纳证明，每一层都有正确的激活值大小：
$∥hl−1∥2=Θ(nl−1)(4)\left\|h_{l-1}\right\|_{2}=\Theta\left(\sqrt{n_{l-1}}\right) (4)$
将 $σ\sigma$ 代入公式(2)，
$∥Wl∥∗→σ(nl−1+nl)=nlnl−1(5)\left\|W_{l}\right\|_{*} \rightarrow \sigma\left(\sqrt{n_{l-1}}+\sqrt{n_{l}}\right)=\frac{\sqrt{n_{l}}}{\sqrt{n_{l-1}}} (5)$

将公式(4)和(5)代入公式(2)，得到

$∥hl∥2=nl+o(nl)\left\|h_{l}\right\|_{2}=\sqrt{n_{l}}+o\left(\sqrt{n_{l}}\right)$

在这里插入图片描述

推导-关于学习率

第二个条件：当在初始化后进行一次梯度更新时，需要保持激活值的更新幅度恒定，不能爆炸式增长，也不能消失。

假设我在层 l 的权重上有一个 $ΔWl\Delta W_{l}$ 的更新量（batch size为1，秩为1），例如来自SGD。

$ΔWl=−ηl∇hlℓhl−1⊤\Delta W_{l}=-\eta_{l} \nabla_{h_{l}} \ell h_{l-1}^{\top}$

因为秩为1，所以有
$∥ΔWlhl−1∥2=∥ΔWl∥∗∥hl−1∥2\left\|\Delta W_{l} h_{l-1}\right\|_{2}=\left\|\Delta W_{l}\right\|_{*}\left\|h_{l-1}\right\|_{2}$

激活值的更新量为 $Δhl=WlΔhl−1+ΔWl(hl−1+Δhl−1)\Delta \mathrm{h}_{l}=\mathrm{W}_{l} \Delta h_{l-1}+\Delta W_{l}\left(h_{l-1}+\Delta h_{l-1}\right)$

查看每一项的量级

$WlΔhl−1=Θ(nl)\mathrm{W}_{l} \Delta h_{l-1}=\Theta\left(\sqrt{n_{l}}\right)$ ，由归纳证明和 condition A1 论证得到
$ΔWlhl−1=∥ΔWl∥∗nl−1\Delta W_{l} h_{l-1}=\left\|\Delta W_{l}\right\|_{*} \sqrt{n_{l-1}}$ ， from above, thus $∥ΔWl∥∗=Θ(nlnl−1)\left\|\boldsymbol{\Delta} \boldsymbol{W}_{l}\right\|_{*}=\boldsymbol{\Theta}\left(\frac{\sqrt{\boldsymbol{n}_{\boldsymbol{l}}}}{\sqrt{\boldsymbol{n}_{\boldsymbol{l}-1}}}\right)$
$ΔWlΔhl−1=O(∥ΔWl∥∗nl−1)\Delta W_{l} \Delta h_{l-1}=O\left(\left\|\Delta W_{l}\right\|_{*} \sqrt{n_{l-1}}\right)$

关键就在于， $∥ΔWl∥∗\left\|\Delta W_{l}\right\|_{*}$ 在更新时，量级是多少

在这里插入图片描述

我们想要 $Δh1=W1Δhl−1+ΔWl(hl−1+Δhl−1)\Delta \mathrm{h}_{1}=\mathrm{W}_{1} \Delta h_{l-1}+\Delta W_{l}\left(h_{l-1}+\Delta h_{l-1}\right)$ 的量级为 $Θ(nl)\Theta\left(\sqrt{n_{l}}\right)$ ，所以关键就在于让 $∥ΔWl∥∗nl−1=Θ(nl)\left\|\Delta W_{l}\right\|_{*} \sqrt{n_{l-1}}=\Theta\left(\sqrt{n_{l}}\right)$ 。

如何实现呢？

假设训练过程表现良好，那么在一次梯度更新后，损失的变化（ $Δℓ\Delta \ell$ ）量级在 $O(1)\mathrm{O}(1)$ 。因为我们不希望损失的更新，会爆炸式增长或趋于零，而是保持大致相同的数量级。

$Δℓ=Θ(⟨ΔWl,∇Wlℓ⟩)=Θ(∥ΔWl∥F∥∇Wlℓ∥F)=Θ(∥ΔWl∥∗∥∇Wlℓ∥∗)\Delta \ell=\Theta\left(\left\langle\Delta W_{l}, \nabla_{W_{l}} \ell\right\rangle\right)=\Theta\left(\left\|\Delta W_{l}\right\|_{F}\left\|\nabla_{W_{l}} \ell\right\|_{F}\right)=\Theta\left(\left\|\Delta W_{l}\right\|_{*}\left\|\nabla_{W_{l}} \ell\right\|_{*}\right)$