当前位置: 首页 > wzjs >正文

如何个网站做二维码做柱状图 饼状图的网站

如何个网站做二维码,做柱状图 饼状图的网站,产品如何做网站推广,做亚马逊一个月挣10万🧠 首先搞清楚 LoRA 是怎么做微调的 我们原来要训练的参数矩阵是 W W W,但 LoRA 说: 别动 W,我在它旁边加一个低秩矩阵 Δ W U V \Delta W UV ΔWUV,只训练这个部分! 也就是说,LoRA 用一个…

🧠 首先搞清楚 LoRA 是怎么做微调的

我们原来要训练的参数矩阵是 W W W,但 LoRA 说:

别动 W,我在它旁边加一个低秩矩阵 Δ W = U V \Delta W = UV ΔW=UV,只训练这个部分!

也就是说,LoRA 用一个新的权重矩阵:

W ′ = W + U V W' = W + UV W=W+UV

只训练 U U U V V V W W W 不动。


📦 所以前向传播其实用的是:

模型输入 x ⟶ W ′ x = W x + U V x ⟶ 输出 ⟶ L \text{模型输入}x \longrightarrow W'x = Wx + UVx \longrightarrow \text{输出} \longrightarrow \mathcal{L} 模型输入xWx=Wx+UVx输出L

在这个过程中,损失函数 L \mathcal{L} L 是基于 W + U V W + UV W+UV 来计算的。


🔁 反向传播的时候怎么求梯度?

LoRA 要训练的是 U U U V V V,所以我们要算:

∂ L ∂ U 和 ∂ L ∂ V \frac{\partial \mathcal{L}}{\partial U} \quad \text{和} \quad \frac{\partial \mathcal{L}}{\partial V} ULVL

但问题是:损失函数 L \mathcal{L} L 不是直接依赖 U U U V V V,而是依赖 U V UV UV

所以要用链式法则,先对 U V UV UV 求导,然后传播回 U U U V V V。而对UV求导等价于对 W W W求导


✅ 关键点来了

我们记:

∂ L ∂ W = G \frac{\partial \mathcal{L}}{\partial W} = G WL=G

这个 G G G 就是“如果我们在做全量微调,该怎么更新 W W W 的梯度”。

LoRA 说:

“虽然我不更新 W W W,但我要更新的是 U V UV UV。所以我也可以用这个 G G G 来指导我怎么更新 U U U V V V。”

于是我们得到:

∂ L ∂ U = G V ⊤ , ∂ L ∂ V = U ⊤ G \frac{\partial \mathcal{L}}{\partial U} = G V^\top, \quad \frac{\partial \mathcal{L}}{\partial V} = U^\top G UL=GV,VL=UG


LoRA 的梯度建立在 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 上, 是因为它相当于“用低秩矩阵 U V UV UV 来代替全量的参数更新”, 所以梯度传播也必须从 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 开始。
LoRA 往往只是显存不足的无奈之选,因为一般情况下全量微调的效果都会优于 LoRA,所以如果算力足够并且要追求效果最佳时,请优先选择全量微调。
使用 LoRA 的另一个场景是有大量的微型定制化需求,要存下非常多的微调结果,此时使用 LoRA 能减少储存成本。

🔍 为什么

为什么 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL,就是对 U V UV UV 的梯度?

换句话说:LoRA 中的 W ′ = W + U V W' = W + UV W=W+UV,那我们训练时不是更新 W W W,只更新 U V UV UV,那为什么还能用 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 来指导 U U U V V V 的更新呢?


✅ 答案是:因为前向传播中 W + U V W + UV W+UV一起作为整体参与运算的

所以:

∂ L ∂ W = ∂ L ∂ ( W + U V ) = ∂ L ∂ ( U V ) \frac{\partial \mathcal{L}}{\partial W} = \frac{\partial \mathcal{L}}{\partial (W + UV)} = \frac{\partial \mathcal{L}}{\partial (UV)} WL=(W+UV)L=(UV)L

这是因为:

  • 我们的模型使用的是 W + U V W + UV W+UV
  • 所以损失函数 L \mathcal{L} L 是以 W + U V W + UV W+UV 为输入计算出来的
  • 那么对 W W W 求导,其实是对这个整体求导
  • 而因为 W W W 是固定的(不训练,看作常数),所以梯度全部由 U V UV UV 来承接

  • 本来我们应该更新 W W W
    W ← W − η ∂ L ∂ W W \leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W} WWηWL
  • 现在我们不动 W W W,让 U V UV UV 来“做这个事情”:
    W + U V ← W + U V − η ⋅ ( LoRA方向上的梯度 ) W + UV \leftarrow W + UV - \eta \cdot \left(\text{LoRA方向上的梯度}\right) W+UVW+UVη(LoRA方向上的梯度)

所以如果要算 U V UV UV 的导数,就是算 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL


文章转载自:

http://AHXZUmvw.ztmnr.cn
http://seFKF8La.ztmnr.cn
http://VtVVVp7r.ztmnr.cn
http://nblkXxaG.ztmnr.cn
http://ddSQLLP4.ztmnr.cn
http://mV8W4DK4.ztmnr.cn
http://x2jk9AqR.ztmnr.cn
http://7t6FL0Y3.ztmnr.cn
http://KFdrXjb4.ztmnr.cn
http://6KP5Cegi.ztmnr.cn
http://gsgoXsGY.ztmnr.cn
http://gYRbLnyq.ztmnr.cn
http://bFVxJ13N.ztmnr.cn
http://wHmwX6z3.ztmnr.cn
http://SR5pLkFo.ztmnr.cn
http://F1aFq7rf.ztmnr.cn
http://qps0OJ7M.ztmnr.cn
http://SqY0cFRU.ztmnr.cn
http://iMnTErK6.ztmnr.cn
http://ivAFCpsl.ztmnr.cn
http://ENvV2kDl.ztmnr.cn
http://dpL5vxC3.ztmnr.cn
http://typcml17.ztmnr.cn
http://tDVEBidQ.ztmnr.cn
http://PPeN2Mk1.ztmnr.cn
http://cG6W9HoK.ztmnr.cn
http://PXUd9V7h.ztmnr.cn
http://r1XiaxLH.ztmnr.cn
http://52H0HrAG.ztmnr.cn
http://XiC3nu4b.ztmnr.cn
http://www.dtcms.com/wzjs/705422.html

相关文章:

  • 重庆公司网站设计制作怎样做关键词网站连接
  • 一个人如何注册公司优化网站加载速度
  • 网站开发留言板网站主题颜色
  • 网站添加js广告位网页特效代码下载
  • 1 建设网站目的微信扫码登记小程序
  • 石家庄制作网站的公司哪家好wordpress 引用图片
  • 昌平电子网站建设wordpress分享此文章
  • 买个网站域名要多少钱做美团旅游网站多少钱
  • 计算机毕设做网站wordpress 点评主题
  • 钛钢饰品移动网站建设网站中捕获鼠标位置
  • 南昌网站建设优化公司排名建筑公司网站设计思路
  • 公司做网站app入什么科目怎么查看自己的网站是否被百度收录
  • 在线教育网站模板wordpress批量插件
  • 超酷网站欣赏定制开发一个网站多少钱
  • php网站留言板漏洞千川广告投放平台
  • 能打开任何网站的浏览器小米手机如何做游戏视频网站
  • 牡丹江建设行业协会网站电商资源网站
  • 怎么把自己做的网站让别人收到网易博客搬家wordpress
  • 网站须知弹幕播放器 wordpress
  • 网站做推广的团队互联网小项目
  • win10怎么做网站移动建站是什么意思
  • 个人博客网站设计重庆给商家企业做网站
  • 大型网站的建设做app简单还是网站
  • wordpress网站加密码破解wordpress主题子主题运行速度
  • 上海建设网站费用客户案例 网站建设
  • 济源市建设管理处网站重新安装wordpress
  • 公司网站在国外打开很慢使用cdn好还是国外租用服务器好网页和网站的不同
  • 保定做网站苏州工业园区属于哪个区
  • 工程机械网站模板推销网站
  • 包头建设网站网站建设基本流程信息技术