当前位置: 首页 > wzjs >正文

最权威的公文写作网站乐天seo培训中心

最权威的公文写作网站,乐天seo培训中心,秦皇岛网站制作专家教你简单建站,苏州市建设中心网站首页目录 4.3 参数选择方法4.3.1 基于规则的方法4.3.2 基于学习的方法1)公式:2)Child-tuning 的两种变体模型3)Child-tuning总结 4.3 参数选择方法 参数选择方法: 对预训练模型中部分参数微调,不添加额外参数以避免推理时…

目录

    • 4.3 参数选择方法
      • 4.3.1 基于规则的方法
      • 4.3.2 基于学习的方法
        • 1)公式:
        • 2)Child-tuning 的两种变体模型
        • 3)Child-tuning总结


4.3 参数选择方法

参数选择方法:

  • 对预训练模型中部分参数微调,不添加额外参数以避免推理时增加计算成本,

  • 分为基于规则和基于学习两类。

基于选择的方法,能减少更新参数量,降低计算和内存成本,适用于资源受限或需快速适应新任务的场景。但面临如何选最佳参数子集,以及平衡参数更新量与模型性能的挑战。

.

4.3.1 基于规则的方法

基于规则:

  • 依靠专家经验确定需更新的参数;

  • BitFit 是典型代表。

BitFit 仅优化神经网络各层偏置项(Biases)和任务特定分类头,因偏置项占比极小(约 0.08%-0.09%),故参数效率极高。

虽微调参数少,BitFit 在 GLUE Benchmark 上表现可与全量微调媲美,甚至在部分任务上更优,且允许更大学习率,优化更稳定。但其性能仅在小模型(如 BERT、RoBERT 等)上验证过,在更大模型上的表现未知。

除 BitFit 外,其他基于规则的方法通过仅微调特定 Transformer 层提高参数效率。Lee 等人提出,仅微调 BERT 和 RoBERTa 最后四分之一层,就能实现完全参数微调 90% 的性能。PaFi 选择绝对值最小的模型参数作为可训练参数。

.

4.3.2 基于学习的方法

基于学习:

  • 自动选择可训练参数子集,

  • 典型方法 Child-tuning

Child-tuning 通过梯度掩码矩阵策略,仅对选中的子网络进行梯度更新,屏蔽其他梯度,实现参数高效微调。

.

1)公式:

在参数高效微调中,假设 W t \mathbf{W}_{t} Wt 是第 t 轮迭代的参数矩阵,引入与 W t \mathbf{W}_{t} Wt 同维度的 0-1 掩码矩阵 M t \mathbf{M}_{t} Mt 用于选择第 t 轮迭代的子网络 C t \mathbf{C}_{t} Ct,仅更新该子网络的参数,定义如下:

M t ( i ) = { 1 , if  W t ( i ) ∈ C t 0 , if  W t ( i ) ∉ C t \mathbf{M}_{t}^{(i)} = \begin{cases} 1, & \text{if } \mathbf{W}_{t}^{(i)} \in \mathbf{C}_{t} \\ 0, & \text{if } \mathbf{W}_{t}^{(i)} \notin \mathbf{C}_{t} \end{cases} Mt(i)={1,0,if Wt(i)Ctif Wt(i)/Ct

其中, M t ( i ) \mathbf{M}_{t}^{(i)} Mt(i) W t ( i ) \mathbf{W}_{t}^{(i)} Wt(i) 分别是矩阵 M t \mathbf{M}_{t} Mt W t \mathbf{W}_{t} Wt 在第 t 轮迭代的第 i 个元素。

此时,梯度更新公式为:

W t + 1 = W t − η ( ∂ L ( W t ) ∂ W t ⊙ M t ) \mathbf{W}_{t+1} = \mathbf{W}_{t - \eta} \left( \frac{\partial \mathcal{L}(\mathbf{W}_{t})}{\partial \mathbf{W}_{t}} \odot \mathbf{M}_{t} \right) Wt+1=Wtη(WtL(Wt)Mt)

其中:

  • W t \mathbf{W}_{t} Wt 是第 (t) 轮迭代的参数矩阵。

  • η \eta η 是学习率。

  • ∂ L ( W t ) ∂ W t \frac{\partial \mathcal{L}(\mathbf{W}_{t})}{\partial \mathbf{W}_{t}} WtL(Wt) 是损失函数 L \mathcal{L} L 对参数矩阵 W t \mathbf{W}_t Wt 的梯度。

  • ⊙ \odot 表示逐元素乘法。

  • M t \mathbf{M}_{t} Mt 是掩码矩阵,用于选择子网络 C t \mathbf{C}_t Ct 中的参数。

Child-tuning 提供了两种生成子网络掩码 M \mathbf{M} M 的方式,产生两种变体模型: C h i l d − t u n i n g F Child-tuning_{F} ChildtuningF C h i l d − t u n i n g D Child-tuning_{D} ChildtuningD

.

2)Child-tuning 的两种变体模型

C h i l d − t u n i n g F Child-tuning_{F} ChildtuningF

  • 任务无关:不依赖下游任务数据,通过伯努利分布随机生成 0-1 掩码 Mt​ 选择子网络。

  • 正则化:引入噪声对全梯度进行正则化,防止过拟合,提高泛化能力。
    M t ∼ Bernoulli ( p F ) \mathbf{M}_t \sim \text{Bernoulli}(p_F) MtBernoulli(pF)

C h i l d − t u n i n g D Child-tuning_{D} ChildtuningD

  • 任务驱动:利用下游任务数据,通过费舍尔信息矩阵(FIM,公式如下)估计参数对任务的重要性。

  • 选择子网络:计算每个参数的费舍尔信息值,排序后选择前 p D p_D pD​ 比例的参数组成子网络 C。

  • 训练:根据选定的子网络生成掩码矩阵完成模型训练。

F ( i ) ( W ) = 1 ∣ D ∣ ∑ j = 1 ∣ D ∣ ( ∂ log ⁡ p ( Y j ∣ X j ; W ) ∂ W ( i ) ) 2 F^{(i)}(W) = \frac{1}{|\mathcal{D}|} \sum_{j=1}^{|\mathcal{D}|} \left( \frac{\partial \log p(Y_j | X_j; W)}{\partial W^{(i)}} \right)^2 F(i)(W)=D1j=1D(W(i)logp(YjXj;W))2

.

3)Child-tuning总结

Child-tuning 通过梯度屏蔽减少计算负担和模型过拟合风险,但在子网络选择尤其是任务驱动变体中存在计算代价高的问题。总体而言,它在多种下游任务中表现出色,尤其在训练数据有限时,并且可以与其他 PEFT 方法集成以进一步提升性能。

除 Child-tuning 外,其他基于学习的参数选择方法包括:

  • Zhao 等人引入与模型权重相关的二值矩阵,通过阈值函数生成掩码并在反向传播中更新。

  • Fish-Dip 使用 Fisher 信息计算掩码,且每个训练周期动态重新计算。

  • LT-SFT 受“彩票假设”启发,根据初始微调阶段变化最大的参数子集形成掩码。

  • SAM 提出二阶逼近方法,通过解析求解优化函数决定参数掩码。

.


其他参考:【大模型基础_毛玉仁】系列文章


声明:资源可能存在第三方来源,若有侵权请联系删除!

http://www.dtcms.com/wzjs/222426.html

相关文章:

  • 百瑞网站建设seo页面优化技术
  • 上海网站建设领导品牌网络宣传的好处
  • 多语言企业网站建设自己怎么做网站推广
  • 便宜网站建设公司中国万网官网登录
  • 环保网站建设公司营销策划公司的经营范围
  • 网站怎么挖掘关键词查网站流量的网址
  • html5手机网站教程关键词优化心得
  • 比特币交易网站开发北京网站优化技术
  • 织梦装修公司网站模板学大教育培训机构怎么样
  • 小商品网站建设排名优化关键词公司
  • 产品网站推广方案推广链接
  • 网站开发设计前景深圳seo外包公司
  • 网站建设一般用什么语言好网络营销软件排行
  • 住宅和城乡建设部网站西安网站关键词优化费用
  • 北京企业建设网站公司哪家好调研报告万能模板
  • 岳阳网站建设公司兰州seo外包公司
  • 深圳龙岗网站建设公司网站策划书模板
  • 企业电子商务网站建设总结搜索引擎优化培训班
  • 深圳网站建设做一个公司网站要多少钱东莞网络营销渠道
  • 沧州网站建设自己的网站怎么样推广优化
  • 做网站需要撑握哪些技术长沙seo运营
  • 淘宝优惠网站如何做软件制作
  • 邯郸市教育考试院官网优化加速
  • 网站建设的整体流程seo主要做什么
  • 图书网站建设的规模策划书近期国内新闻热点事件
  • 没注册可以做网站吗武汉百度推广公司
  • 大气html5网络公司网站源码千锋教育北京校区
  • 网站建设教程txt老域名
  • 直销网站建设 优帮云百度网盘客服电话人工服务
  • 公司网站开发费账务处理做网站公司哪家比较好