当前位置: 首页 > wzjs >正文

昆明网站制作企业海淘手表网站

昆明网站制作企业,海淘手表网站,红豆视频在线观看高清免费下载,网站公告建设方案目录 4.3 参数选择方法4.3.1 基于规则的方法4.3.2 基于学习的方法1)公式:2)Child-tuning 的两种变体模型3)Child-tuning总结 4.3 参数选择方法 参数选择方法: 对预训练模型中部分参数微调,不添加额外参数以避免推理时…

目录

    • 4.3 参数选择方法
      • 4.3.1 基于规则的方法
      • 4.3.2 基于学习的方法
        • 1)公式:
        • 2)Child-tuning 的两种变体模型
        • 3)Child-tuning总结


4.3 参数选择方法

参数选择方法:

  • 对预训练模型中部分参数微调,不添加额外参数以避免推理时增加计算成本,

  • 分为基于规则和基于学习两类。

基于选择的方法,能减少更新参数量,降低计算和内存成本,适用于资源受限或需快速适应新任务的场景。但面临如何选最佳参数子集,以及平衡参数更新量与模型性能的挑战。

.

4.3.1 基于规则的方法

基于规则:

  • 依靠专家经验确定需更新的参数;

  • BitFit 是典型代表。

BitFit 仅优化神经网络各层偏置项(Biases)和任务特定分类头,因偏置项占比极小(约 0.08%-0.09%),故参数效率极高。

虽微调参数少,BitFit 在 GLUE Benchmark 上表现可与全量微调媲美,甚至在部分任务上更优,且允许更大学习率,优化更稳定。但其性能仅在小模型(如 BERT、RoBERT 等)上验证过,在更大模型上的表现未知。

除 BitFit 外,其他基于规则的方法通过仅微调特定 Transformer 层提高参数效率。Lee 等人提出,仅微调 BERT 和 RoBERTa 最后四分之一层,就能实现完全参数微调 90% 的性能。PaFi 选择绝对值最小的模型参数作为可训练参数。

.

4.3.2 基于学习的方法

基于学习:

  • 自动选择可训练参数子集,

  • 典型方法 Child-tuning

Child-tuning 通过梯度掩码矩阵策略,仅对选中的子网络进行梯度更新,屏蔽其他梯度,实现参数高效微调。

.

1)公式:

在参数高效微调中,假设 W t \mathbf{W}_{t} Wt 是第 t 轮迭代的参数矩阵,引入与 W t \mathbf{W}_{t} Wt 同维度的 0-1 掩码矩阵 M t \mathbf{M}_{t} Mt 用于选择第 t 轮迭代的子网络 C t \mathbf{C}_{t} Ct,仅更新该子网络的参数,定义如下:

M t ( i ) = { 1 , if  W t ( i ) ∈ C t 0 , if  W t ( i ) ∉ C t \mathbf{M}_{t}^{(i)} = \begin{cases} 1, & \text{if } \mathbf{W}_{t}^{(i)} \in \mathbf{C}_{t} \\ 0, & \text{if } \mathbf{W}_{t}^{(i)} \notin \mathbf{C}_{t} \end{cases} Mt(i)={1,0,if Wt(i)Ctif Wt(i)/Ct

其中, M t ( i ) \mathbf{M}_{t}^{(i)} Mt(i) W t ( i ) \mathbf{W}_{t}^{(i)} Wt(i) 分别是矩阵 M t \mathbf{M}_{t} Mt W t \mathbf{W}_{t} Wt 在第 t 轮迭代的第 i 个元素。

此时,梯度更新公式为:

W t + 1 = W t − η ( ∂ L ( W t ) ∂ W t ⊙ M t ) \mathbf{W}_{t+1} = \mathbf{W}_{t - \eta} \left( \frac{\partial \mathcal{L}(\mathbf{W}_{t})}{\partial \mathbf{W}_{t}} \odot \mathbf{M}_{t} \right) Wt+1=Wtη(WtL(Wt)Mt)

其中:

  • W t \mathbf{W}_{t} Wt 是第 (t) 轮迭代的参数矩阵。

  • η \eta η 是学习率。

  • ∂ L ( W t ) ∂ W t \frac{\partial \mathcal{L}(\mathbf{W}_{t})}{\partial \mathbf{W}_{t}} WtL(Wt) 是损失函数 L \mathcal{L} L 对参数矩阵 W t \mathbf{W}_t Wt 的梯度。

  • ⊙ \odot 表示逐元素乘法。

  • M t \mathbf{M}_{t} Mt 是掩码矩阵,用于选择子网络 C t \mathbf{C}_t Ct 中的参数。

Child-tuning 提供了两种生成子网络掩码 M \mathbf{M} M 的方式,产生两种变体模型: C h i l d − t u n i n g F Child-tuning_{F} ChildtuningF C h i l d − t u n i n g D Child-tuning_{D} ChildtuningD

.

2)Child-tuning 的两种变体模型

C h i l d − t u n i n g F Child-tuning_{F} ChildtuningF

  • 任务无关:不依赖下游任务数据,通过伯努利分布随机生成 0-1 掩码 Mt​ 选择子网络。

  • 正则化:引入噪声对全梯度进行正则化,防止过拟合,提高泛化能力。
    M t ∼ Bernoulli ( p F ) \mathbf{M}_t \sim \text{Bernoulli}(p_F) MtBernoulli(pF)

C h i l d − t u n i n g D Child-tuning_{D} ChildtuningD

  • 任务驱动:利用下游任务数据,通过费舍尔信息矩阵(FIM,公式如下)估计参数对任务的重要性。

  • 选择子网络:计算每个参数的费舍尔信息值,排序后选择前 p D p_D pD​ 比例的参数组成子网络 C。

  • 训练:根据选定的子网络生成掩码矩阵完成模型训练。

F ( i ) ( W ) = 1 ∣ D ∣ ∑ j = 1 ∣ D ∣ ( ∂ log ⁡ p ( Y j ∣ X j ; W ) ∂ W ( i ) ) 2 F^{(i)}(W) = \frac{1}{|\mathcal{D}|} \sum_{j=1}^{|\mathcal{D}|} \left( \frac{\partial \log p(Y_j | X_j; W)}{\partial W^{(i)}} \right)^2 F(i)(W)=D1j=1D(W(i)logp(YjXj;W))2

.

3)Child-tuning总结

Child-tuning 通过梯度屏蔽减少计算负担和模型过拟合风险,但在子网络选择尤其是任务驱动变体中存在计算代价高的问题。总体而言,它在多种下游任务中表现出色,尤其在训练数据有限时,并且可以与其他 PEFT 方法集成以进一步提升性能。

除 Child-tuning 外,其他基于学习的参数选择方法包括:

  • Zhao 等人引入与模型权重相关的二值矩阵,通过阈值函数生成掩码并在反向传播中更新。

  • Fish-Dip 使用 Fisher 信息计算掩码,且每个训练周期动态重新计算。

  • LT-SFT 受“彩票假设”启发,根据初始微调阶段变化最大的参数子集形成掩码。

  • SAM 提出二阶逼近方法,通过解析求解优化函数决定参数掩码。

.


其他参考:【大模型基础_毛玉仁】系列文章


声明:资源可能存在第三方来源,若有侵权请联系删除!


文章转载自:

http://ez4mOqNh.tbksk.cn
http://oKu1xBpd.tbksk.cn
http://vjlcgdos.tbksk.cn
http://Mim5wP3c.tbksk.cn
http://HQwEQYCK.tbksk.cn
http://Z6oxgPIg.tbksk.cn
http://oQopsgyx.tbksk.cn
http://2FysrYn2.tbksk.cn
http://8yTVP2S3.tbksk.cn
http://RCMRmUIQ.tbksk.cn
http://oWvvmgBA.tbksk.cn
http://To0Eugbo.tbksk.cn
http://JsacmLHv.tbksk.cn
http://rxJd0nyH.tbksk.cn
http://KKrYHlHI.tbksk.cn
http://4ovirRkg.tbksk.cn
http://higjku6G.tbksk.cn
http://LspJvGO2.tbksk.cn
http://HkAdNWwJ.tbksk.cn
http://MXVW2xra.tbksk.cn
http://75n9Qm6y.tbksk.cn
http://N1mrQqHU.tbksk.cn
http://mysbK7Wk.tbksk.cn
http://JNMYfVxR.tbksk.cn
http://l2dazEkP.tbksk.cn
http://XZZJJfDR.tbksk.cn
http://F2vcGv5E.tbksk.cn
http://UxSD8RZG.tbksk.cn
http://lTsgfDwH.tbksk.cn
http://84UiIB6N.tbksk.cn
http://www.dtcms.com/wzjs/777291.html

相关文章:

  • 深圳wap网站建设7天精通网站建设实录简介242
  • 中国建设银行个人网站银行广州专业网页制作
  • 建设银行 北京招聘网站开购物网站需要多少钱
  • 客户网站建设需要什么资料网站开发app开发培训
  • 房地产项目网站建设方案淄博公司制作网站有哪些
  • 男学网站开发胡芦娃app软件下载网站
  • 建设银行网银官方网站公司网站的具体步骤
  • 做视频网站 带宽计算网站建设优化需要懂那些知识
  • 一流的网站建设与优化京东云wordpress
  • 网站开发技术历史大连甘井子区地图
  • 网站怎么做缓存上海市城乡住房建设厅网站
  • 瑞华特散热器网站谁给做的推动高质量发展的必要性
  • 关于建设网站的合作合同重庆seo研究中心
  • 网站建设花钱少做网站的内容资源
  • 中山网站建设解决方案做动态效果的网站
  • 公司做网站需要哪些步骤网站怎样关键词排名优化
  • 自己做网站服务器做个营销网站
  • 帮人做兼职的网站吗wordpress管理员手册
  • 如何申请网站备案号手机网站注册
  • 宁波手机网站开发工程建设网站怎么提交
  • 可以做h5的网站网站不想被百度抓取
  • 网站网页建设论文广州市建设工程安监站网站
  • 网站开发设计哪家好爱站网长尾词挖掘
  • 百度小程序对网站seoWordPress中文替换布
  • nginx wordpress 多站点南宁网站建设升上去
  • 网站提交订单付款才跳转怎么做北京最新消息今天新闻
  • 唐山网站托管wordpress例行维护
  • jquery做手机网站网站模板 兼容
  • 哈尔滨做网站优化百度怎么发帖做推广
  • 网站建设网站定制开发wordpress用户头像