当前位置: 首页 > wzjs >正文

邢台做网站口碑好延安网站建设费用

邢台做网站口碑好,延安网站建设费用,网页源代码查看答案,做好网站内能另外做链接吗🧠 首先搞清楚 LoRA 是怎么做微调的 我们原来要训练的参数矩阵是 W W W,但 LoRA 说: 别动 W,我在它旁边加一个低秩矩阵 Δ W U V \Delta W UV ΔWUV,只训练这个部分! 也就是说,LoRA 用一个…

🧠 首先搞清楚 LoRA 是怎么做微调的

我们原来要训练的参数矩阵是 W W W,但 LoRA 说:

别动 W,我在它旁边加一个低秩矩阵 Δ W = U V \Delta W = UV ΔW=UV,只训练这个部分!

也就是说,LoRA 用一个新的权重矩阵:

W ′ = W + U V W' = W + UV W=W+UV

只训练 U U U V V V W W W 不动。


📦 所以前向传播其实用的是:

模型输入 x ⟶ W ′ x = W x + U V x ⟶ 输出 ⟶ L \text{模型输入}x \longrightarrow W'x = Wx + UVx \longrightarrow \text{输出} \longrightarrow \mathcal{L} 模型输入xWx=Wx+UVx输出L

在这个过程中,损失函数 L \mathcal{L} L 是基于 W + U V W + UV W+UV 来计算的。


🔁 反向传播的时候怎么求梯度?

LoRA 要训练的是 U U U V V V,所以我们要算:

∂ L ∂ U 和 ∂ L ∂ V \frac{\partial \mathcal{L}}{\partial U} \quad \text{和} \quad \frac{\partial \mathcal{L}}{\partial V} ULVL

但问题是:损失函数 L \mathcal{L} L 不是直接依赖 U U U V V V,而是依赖 U V UV UV

所以要用链式法则,先对 U V UV UV 求导,然后传播回 U U U V V V。而对UV求导等价于对 W W W求导


✅ 关键点来了

我们记:

∂ L ∂ W = G \frac{\partial \mathcal{L}}{\partial W} = G WL=G

这个 G G G 就是“如果我们在做全量微调,该怎么更新 W W W 的梯度”。

LoRA 说:

“虽然我不更新 W W W,但我要更新的是 U V UV UV。所以我也可以用这个 G G G 来指导我怎么更新 U U U V V V。”

于是我们得到:

∂ L ∂ U = G V ⊤ , ∂ L ∂ V = U ⊤ G \frac{\partial \mathcal{L}}{\partial U} = G V^\top, \quad \frac{\partial \mathcal{L}}{\partial V} = U^\top G UL=GV,VL=UG


LoRA 的梯度建立在 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 上, 是因为它相当于“用低秩矩阵 U V UV UV 来代替全量的参数更新”, 所以梯度传播也必须从 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 开始。
LoRA 往往只是显存不足的无奈之选,因为一般情况下全量微调的效果都会优于 LoRA,所以如果算力足够并且要追求效果最佳时,请优先选择全量微调。
使用 LoRA 的另一个场景是有大量的微型定制化需求,要存下非常多的微调结果,此时使用 LoRA 能减少储存成本。

🔍 为什么

为什么 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL,就是对 U V UV UV 的梯度?

换句话说:LoRA 中的 W ′ = W + U V W' = W + UV W=W+UV,那我们训练时不是更新 W W W,只更新 U V UV UV,那为什么还能用 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 来指导 U U U V V V 的更新呢?


✅ 答案是:因为前向传播中 W + U V W + UV W+UV一起作为整体参与运算的

所以:

∂ L ∂ W = ∂ L ∂ ( W + U V ) = ∂ L ∂ ( U V ) \frac{\partial \mathcal{L}}{\partial W} = \frac{\partial \mathcal{L}}{\partial (W + UV)} = \frac{\partial \mathcal{L}}{\partial (UV)} WL=(W+UV)L=(UV)L

这是因为:

  • 我们的模型使用的是 W + U V W + UV W+UV
  • 所以损失函数 L \mathcal{L} L 是以 W + U V W + UV W+UV 为输入计算出来的
  • 那么对 W W W 求导,其实是对这个整体求导
  • 而因为 W W W 是固定的(不训练,看作常数),所以梯度全部由 U V UV UV 来承接

  • 本来我们应该更新 W W W
    W ← W − η ∂ L ∂ W W \leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W} WWηWL
  • 现在我们不动 W W W,让 U V UV UV 来“做这个事情”:
    W + U V ← W + U V − η ⋅ ( LoRA方向上的梯度 ) W + UV \leftarrow W + UV - \eta \cdot \left(\text{LoRA方向上的梯度}\right) W+UVW+UVη(LoRA方向上的梯度)

所以如果要算 U V UV UV 的导数,就是算 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL


文章转载自:

http://39o6XUf5.mknxd.cn
http://HWimNgkg.mknxd.cn
http://FM1AfQjf.mknxd.cn
http://eYzmrCTX.mknxd.cn
http://bO78r9T1.mknxd.cn
http://5fYw5THD.mknxd.cn
http://Pe6pFLNf.mknxd.cn
http://eQWZN7DH.mknxd.cn
http://d08iR7Nt.mknxd.cn
http://Ja4Z5K0S.mknxd.cn
http://wTKQHv3g.mknxd.cn
http://6SD6BwkS.mknxd.cn
http://uhKLSqqX.mknxd.cn
http://K5Px6MIA.mknxd.cn
http://8zks5cUQ.mknxd.cn
http://nxSdw0Vi.mknxd.cn
http://QUVO5UYs.mknxd.cn
http://nxy0IoOH.mknxd.cn
http://6TXF6AhS.mknxd.cn
http://kBwma37l.mknxd.cn
http://IzUdIdem.mknxd.cn
http://QZK7HO5D.mknxd.cn
http://1KozuRvG.mknxd.cn
http://uUnlcvj4.mknxd.cn
http://Npqlxop8.mknxd.cn
http://6W86ApTG.mknxd.cn
http://xurwtM0G.mknxd.cn
http://qNaHwZli.mknxd.cn
http://aoKHSyMt.mknxd.cn
http://rBw58f9Y.mknxd.cn
http://www.dtcms.com/wzjs/622329.html

相关文章:

  • 阿里云1m宽带做网站卡吗平台网站如何优化
  • 百度seo排名优化是什么百度seo设置
  • 建设网站建设网站建站公司常见提成比例
  • 淘宝店铺如何和别的网站做链接网站代理加盟
  • 子页网站设计沈阳最新通知今天重要消息
  • 网站开发与制作论文开题8大营销工具指的是哪些
  • 网站建设小程序企业网站建设总结
  • 手机端网站提交表单验证代码企业网站建设分析报告
  • 重庆食品商城网站设计网站开发实用技术介绍
  • 网站建设沈阳下载莱芜都市网app
  • 做菠菜网站判多久网站建设公司 云智互联
  • 云南高端网站制作价格wordpress 采集 api
  • 那个网站报道过鸟巢建设无锡网红餐厅
  • gulf oil wordpress镇江网站seo
  • 精品设计网站crm系统是什么
  • 吉林省长春市建设局网站wordpress换轮播海报
  • 网站建设及运维方案截图京东图片做网站
  • 张家界做网站找哪家好百度推广需要备案的网站吗
  • 怎么自己注册网站中山seo建站
  • 网站推广服务合同如何建立wordpress商城
  • 门户网站的主要特点网站空间会过期吗
  • 阿里巴巴网站服务内容网站制作什么样的字体好看
  • 做视频网站是什么职业村级网站建站
  • 东莞网站建设市场购物网站的建设与维护
  • 泰州市住房和城乡建设局网站网站文章更新
  • 九江网站建设优化哪个网站是做韩国化妆品正品
  • 网站技术解决方案不包括哈尔滨建站费用
  • 兰州建设网站的网站东莞电子网站建设
  • 四川城乡建设官方网站做自己的网站需要多少钱
  • wordpress清理英文站 wordpress seo优化