当前位置: 首页 > wzjs >正文

昆明网站制作企业做网站提成

昆明网站制作企业,做网站提成,廊坊做网站优化,多多电影免费播放目录 4.3 参数选择方法4.3.1 基于规则的方法4.3.2 基于学习的方法1)公式:2)Child-tuning 的两种变体模型3)Child-tuning总结 4.3 参数选择方法 参数选择方法: 对预训练模型中部分参数微调,不添加额外参数以避免推理时…

目录

    • 4.3 参数选择方法
      • 4.3.1 基于规则的方法
      • 4.3.2 基于学习的方法
        • 1)公式:
        • 2)Child-tuning 的两种变体模型
        • 3)Child-tuning总结


4.3 参数选择方法

参数选择方法:

  • 对预训练模型中部分参数微调,不添加额外参数以避免推理时增加计算成本,

  • 分为基于规则和基于学习两类。

基于选择的方法,能减少更新参数量,降低计算和内存成本,适用于资源受限或需快速适应新任务的场景。但面临如何选最佳参数子集,以及平衡参数更新量与模型性能的挑战。

.

4.3.1 基于规则的方法

基于规则:

  • 依靠专家经验确定需更新的参数;

  • BitFit 是典型代表。

BitFit 仅优化神经网络各层偏置项(Biases)和任务特定分类头,因偏置项占比极小(约 0.08%-0.09%),故参数效率极高。

虽微调参数少,BitFit 在 GLUE Benchmark 上表现可与全量微调媲美,甚至在部分任务上更优,且允许更大学习率,优化更稳定。但其性能仅在小模型(如 BERT、RoBERT 等)上验证过,在更大模型上的表现未知。

除 BitFit 外,其他基于规则的方法通过仅微调特定 Transformer 层提高参数效率。Lee 等人提出,仅微调 BERT 和 RoBERTa 最后四分之一层,就能实现完全参数微调 90% 的性能。PaFi 选择绝对值最小的模型参数作为可训练参数。

.

4.3.2 基于学习的方法

基于学习:

  • 自动选择可训练参数子集,

  • 典型方法 Child-tuning

Child-tuning 通过梯度掩码矩阵策略,仅对选中的子网络进行梯度更新,屏蔽其他梯度,实现参数高效微调。

.

1)公式:

在参数高效微调中,假设 W t \mathbf{W}_{t} Wt 是第 t 轮迭代的参数矩阵,引入与 W t \mathbf{W}_{t} Wt 同维度的 0-1 掩码矩阵 M t \mathbf{M}_{t} Mt 用于选择第 t 轮迭代的子网络 C t \mathbf{C}_{t} Ct,仅更新该子网络的参数,定义如下:

M t ( i ) = { 1 , if  W t ( i ) ∈ C t 0 , if  W t ( i ) ∉ C t \mathbf{M}_{t}^{(i)} = \begin{cases} 1, & \text{if } \mathbf{W}_{t}^{(i)} \in \mathbf{C}_{t} \\ 0, & \text{if } \mathbf{W}_{t}^{(i)} \notin \mathbf{C}_{t} \end{cases} Mt(i)={1,0,if Wt(i)Ctif Wt(i)/Ct

其中, M t ( i ) \mathbf{M}_{t}^{(i)} Mt(i) W t ( i ) \mathbf{W}_{t}^{(i)} Wt(i) 分别是矩阵 M t \mathbf{M}_{t} Mt W t \mathbf{W}_{t} Wt 在第 t 轮迭代的第 i 个元素。

此时,梯度更新公式为:

W t + 1 = W t − η ( ∂ L ( W t ) ∂ W t ⊙ M t ) \mathbf{W}_{t+1} = \mathbf{W}_{t - \eta} \left( \frac{\partial \mathcal{L}(\mathbf{W}_{t})}{\partial \mathbf{W}_{t}} \odot \mathbf{M}_{t} \right) Wt+1=Wtη(WtL(Wt)Mt)

其中:

  • W t \mathbf{W}_{t} Wt 是第 (t) 轮迭代的参数矩阵。

  • η \eta η 是学习率。

  • ∂ L ( W t ) ∂ W t \frac{\partial \mathcal{L}(\mathbf{W}_{t})}{\partial \mathbf{W}_{t}} WtL(Wt) 是损失函数 L \mathcal{L} L 对参数矩阵 W t \mathbf{W}_t Wt 的梯度。

  • ⊙ \odot 表示逐元素乘法。

  • M t \mathbf{M}_{t} Mt 是掩码矩阵,用于选择子网络 C t \mathbf{C}_t Ct 中的参数。

Child-tuning 提供了两种生成子网络掩码 M \mathbf{M} M 的方式,产生两种变体模型: C h i l d − t u n i n g F Child-tuning_{F} ChildtuningF C h i l d − t u n i n g D Child-tuning_{D} ChildtuningD

.

2)Child-tuning 的两种变体模型

C h i l d − t u n i n g F Child-tuning_{F} ChildtuningF

  • 任务无关:不依赖下游任务数据,通过伯努利分布随机生成 0-1 掩码 Mt​ 选择子网络。

  • 正则化:引入噪声对全梯度进行正则化,防止过拟合,提高泛化能力。
    M t ∼ Bernoulli ( p F ) \mathbf{M}_t \sim \text{Bernoulli}(p_F) MtBernoulli(pF)

C h i l d − t u n i n g D Child-tuning_{D} ChildtuningD

  • 任务驱动:利用下游任务数据,通过费舍尔信息矩阵(FIM,公式如下)估计参数对任务的重要性。

  • 选择子网络:计算每个参数的费舍尔信息值,排序后选择前 p D p_D pD​ 比例的参数组成子网络 C。

  • 训练:根据选定的子网络生成掩码矩阵完成模型训练。

F ( i ) ( W ) = 1 ∣ D ∣ ∑ j = 1 ∣ D ∣ ( ∂ log ⁡ p ( Y j ∣ X j ; W ) ∂ W ( i ) ) 2 F^{(i)}(W) = \frac{1}{|\mathcal{D}|} \sum_{j=1}^{|\mathcal{D}|} \left( \frac{\partial \log p(Y_j | X_j; W)}{\partial W^{(i)}} \right)^2 F(i)(W)=D1j=1D(W(i)logp(YjXj;W))2

.

3)Child-tuning总结

Child-tuning 通过梯度屏蔽减少计算负担和模型过拟合风险,但在子网络选择尤其是任务驱动变体中存在计算代价高的问题。总体而言,它在多种下游任务中表现出色,尤其在训练数据有限时,并且可以与其他 PEFT 方法集成以进一步提升性能。

除 Child-tuning 外,其他基于学习的参数选择方法包括:

  • Zhao 等人引入与模型权重相关的二值矩阵,通过阈值函数生成掩码并在反向传播中更新。

  • Fish-Dip 使用 Fisher 信息计算掩码,且每个训练周期动态重新计算。

  • LT-SFT 受“彩票假设”启发,根据初始微调阶段变化最大的参数子集形成掩码。

  • SAM 提出二阶逼近方法,通过解析求解优化函数决定参数掩码。

.


其他参考:【大模型基础_毛玉仁】系列文章


声明:资源可能存在第三方来源,若有侵权请联系删除!


文章转载自:

http://1c7hNCH1.mpwgs.cn
http://pzX5rUdo.mpwgs.cn
http://XYDwQhHn.mpwgs.cn
http://wepNIIgg.mpwgs.cn
http://Fwy4uc0H.mpwgs.cn
http://xQPWi0UP.mpwgs.cn
http://RV0HfcHT.mpwgs.cn
http://h5Om0moP.mpwgs.cn
http://8GJarmnU.mpwgs.cn
http://uXah1Igo.mpwgs.cn
http://53ai5Vs4.mpwgs.cn
http://8PeQbFuz.mpwgs.cn
http://P7FafC0Z.mpwgs.cn
http://qK7LYZUz.mpwgs.cn
http://9Kp6jdA6.mpwgs.cn
http://uqZvus30.mpwgs.cn
http://hq8f5ydM.mpwgs.cn
http://b8q4MNzR.mpwgs.cn
http://QiYIynE5.mpwgs.cn
http://P5cGt20T.mpwgs.cn
http://IyCOA1ix.mpwgs.cn
http://wFEQmwPX.mpwgs.cn
http://MflHhyNX.mpwgs.cn
http://UgTaFubW.mpwgs.cn
http://VnxHeOJ8.mpwgs.cn
http://Yfw2o98b.mpwgs.cn
http://QQmiDjRG.mpwgs.cn
http://cohFofQV.mpwgs.cn
http://37rTpnxy.mpwgs.cn
http://bRanvrSu.mpwgs.cn
http://www.dtcms.com/wzjs/694768.html

相关文章:

  • 如何创建一个简单的网站站外seo是什么
  • h5和小程序有什么区别万词优化
  • 如何做贷款网站推广如何做推广赚钱
  • 技术支持骏域建设网站做网页的软件哪个好用
  • 建设银行网站啊十堰秦楚网十堰晚报新闻
  • 个人备案 什么网站建设银行鹤岗分行网站
  • 一级a做爰片就线在看网站wordpress模板 电子商务
  • 郑州做公司网站福建中海建设有限公司网站
  • 官方网站面膜做代理c2c网站有哪几个
  • 网站静态图怎么做医美推广平台有哪些
  • 古县网站建设遂宁微章建设举报网站
  • 门户网站建设文案国外化妆品网站模板
  • 英文网站建设解决方案软件开发工程师是前端还是后端
  • 专业网站制作的费用ip设计网站
  • 优秀的网站有哪些建设企业银行官方网站
  • 网站建设最简单的教程替代wordpress 搜索引擎
  • 域名注册成功后怎么使用网站wordpress 主题 打包
  • 用什么语言来做网站常州网站建设系统
  • 北京 企业建网站个人如何申请域名
  • 绵阳低价网站建设公众号怎么制作微信红包封面
  • 怎么用手机搭建网站网页设计公司有哪些岗位
  • 公司网站建设需要些什么要求免费的crm的app
  • 网站建设实训主要收获及体会网站建设-搜遇网络
  • 石狮建设网站网站建设需要技术
  • 怎么在网站做视频接口建网站哪家好
  • 广州3d网站开发免费申请个人邮箱
  • 做炭化料的网站上海鹭城建设集团网站
  • 网站关键词优化系统wordpress模板能修改吗
  • 怎么简单做网站排名wordpress图片防盗链
  • 做网站用什么程序男女做羞羞的故事网站