大模型中权重共享的作用?
参考视频:面试必刷:大模型为什么权重共享可以节省参数且提升训练稳定性?_哔哩哔哩_bilibili
先,权重共享最直观的作用是大幅减少模型参数量。很多特征提取或者计算模块中,存在大量重复模式,权重共享充分利用了这种重复性,避免为每个模块重复学习相似的参数,从而节省了存储和计算资源。
其次,权重共享能够有效提升训练的稳定性,这一方面可以从过拟合风险、梯度波动和正则化机制等角度来理解:
-
减少过拟合风险:参数量减少意味着模型复杂度降低,模型不容易陷入过拟合,泛化能力更强。这也体现了一种归纳偏置——模型默认不同位置或时间步的特征具有一致性,引导模型优先从有限数据中学习通用规律,避免盲目拟合噪声。
-
缓解梯度波动:权重共享让多个输入样本或时间步产生的梯度累积到同一组参数上,相当于对梯度进行了某种形式的平均,减少了训练过程中的梯度噪声,使得优化过程更加平滑和稳定。
-
隐含正则化效果:权重共享类似一种结构化的正则化,限制了模型的表达能力空间,有助于优化过程的收敛和训练稳定性。
什么是正则化?
正则化Regularization是机器学习中用来防止模型过拟合、提升泛化能力的一类技术。通过对模型训练过程中施加某种约束或乘法, 促使模型在训练数据上不仅拟合好,在未见过的数据也能表现良好。
综上,权重共享不仅节省了参数,还通过引入合理的归纳偏置和正则化机制,提升了模型训练的稳定性和泛化能力。