当前位置: 首页 > wzjs >正文

火龙果写作网站360搜索引擎入口

火龙果写作网站,360搜索引擎入口,珠海网站制作设计,西安SEO网站推广🧠 首先搞清楚 LoRA 是怎么做微调的 我们原来要训练的参数矩阵是 W W W,但 LoRA 说: 别动 W,我在它旁边加一个低秩矩阵 Δ W U V \Delta W UV ΔWUV,只训练这个部分! 也就是说,LoRA 用一个…

🧠 首先搞清楚 LoRA 是怎么做微调的

我们原来要训练的参数矩阵是 W W W,但 LoRA 说:

别动 W,我在它旁边加一个低秩矩阵 Δ W = U V \Delta W = UV ΔW=UV,只训练这个部分!

也就是说,LoRA 用一个新的权重矩阵:

W ′ = W + U V W' = W + UV W=W+UV

只训练 U U U V V V W W W 不动。


📦 所以前向传播其实用的是:

模型输入 x ⟶ W ′ x = W x + U V x ⟶ 输出 ⟶ L \text{模型输入}x \longrightarrow W'x = Wx + UVx \longrightarrow \text{输出} \longrightarrow \mathcal{L} 模型输入xWx=Wx+UVx输出L

在这个过程中,损失函数 L \mathcal{L} L 是基于 W + U V W + UV W+UV 来计算的。


🔁 反向传播的时候怎么求梯度?

LoRA 要训练的是 U U U V V V,所以我们要算:

∂ L ∂ U 和 ∂ L ∂ V \frac{\partial \mathcal{L}}{\partial U} \quad \text{和} \quad \frac{\partial \mathcal{L}}{\partial V} ULVL

但问题是:损失函数 L \mathcal{L} L 不是直接依赖 U U U V V V,而是依赖 U V UV UV

所以要用链式法则,先对 U V UV UV 求导,然后传播回 U U U V V V。而对UV求导等价于对 W W W求导


✅ 关键点来了

我们记:

∂ L ∂ W = G \frac{\partial \mathcal{L}}{\partial W} = G WL=G

这个 G G G 就是“如果我们在做全量微调,该怎么更新 W W W 的梯度”。

LoRA 说:

“虽然我不更新 W W W,但我要更新的是 U V UV UV。所以我也可以用这个 G G G 来指导我怎么更新 U U U V V V。”

于是我们得到:

∂ L ∂ U = G V ⊤ , ∂ L ∂ V = U ⊤ G \frac{\partial \mathcal{L}}{\partial U} = G V^\top, \quad \frac{\partial \mathcal{L}}{\partial V} = U^\top G UL=GV,VL=UG


LoRA 的梯度建立在 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 上, 是因为它相当于“用低秩矩阵 U V UV UV 来代替全量的参数更新”, 所以梯度传播也必须从 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 开始。
LoRA 往往只是显存不足的无奈之选,因为一般情况下全量微调的效果都会优于 LoRA,所以如果算力足够并且要追求效果最佳时,请优先选择全量微调。
使用 LoRA 的另一个场景是有大量的微型定制化需求,要存下非常多的微调结果,此时使用 LoRA 能减少储存成本。

🔍 为什么

为什么 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL,就是对 U V UV UV 的梯度?

换句话说:LoRA 中的 W ′ = W + U V W' = W + UV W=W+UV,那我们训练时不是更新 W W W,只更新 U V UV UV,那为什么还能用 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL 来指导 U U U V V V 的更新呢?


✅ 答案是:因为前向传播中 W + U V W + UV W+UV一起作为整体参与运算的

所以:

∂ L ∂ W = ∂ L ∂ ( W + U V ) = ∂ L ∂ ( U V ) \frac{\partial \mathcal{L}}{\partial W} = \frac{\partial \mathcal{L}}{\partial (W + UV)} = \frac{\partial \mathcal{L}}{\partial (UV)} WL=(W+UV)L=(UV)L

这是因为:

  • 我们的模型使用的是 W + U V W + UV W+UV
  • 所以损失函数 L \mathcal{L} L 是以 W + U V W + UV W+UV 为输入计算出来的
  • 那么对 W W W 求导,其实是对这个整体求导
  • 而因为 W W W 是固定的(不训练,看作常数),所以梯度全部由 U V UV UV 来承接

  • 本来我们应该更新 W W W
    W ← W − η ∂ L ∂ W W \leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W} WWηWL
  • 现在我们不动 W W W,让 U V UV UV 来“做这个事情”:
    W + U V ← W + U V − η ⋅ ( LoRA方向上的梯度 ) W + UV \leftarrow W + UV - \eta \cdot \left(\text{LoRA方向上的梯度}\right) W+UVW+UVη(LoRA方向上的梯度)

所以如果要算 U V UV UV 的导数,就是算 ∂ L ∂ W \frac{\partial \mathcal{L}}{\partial W} WL

http://www.dtcms.com/wzjs/407853.html

相关文章:

  • 门户网站做压力测试如何制作自己的网站教程
  • 建立网站解析会员视频是犯什么罪学技术的培训学校
  • 做网站要通过网信办备案吗合肥关键词排名技巧
  • 做景观园林的网站是东莞做网站哪里好
  • 如何用自己的电脑建网站搜索引擎广告图片
  • 怎么把自己的网站放到百度上想卖产品怎么推广宣传
  • 郑州做网站msgg网络营销经典失败案例
  • 陈江做网站在线crm网站
  • 什么样的网站可以做站群互联网营销工具
  • iapp做网站黑帽seo是什么
  • 网站建设的主要产品杭州专业seo服务公司
  • 天津专业网站设计app推广拉新工作可靠吗
  • 做期货的的都喜欢去什么网站百度小说排行榜2019
  • wordpress 主题搜索框广州seo招聘信息
  • 做理财的网站有哪些问题seo搜索排名
  • 江苏盐城有做淘宝网站的吗泉州seo代理商
  • 可靠的专业网站建设平台清远今日头条最新消息
  • 网站建设一般多少钱一年今日重大新闻头条
  • 做动态网站需要多少钱百度首页入口
  • 视频网站建设 可行性报告互联网广告代理
  • dw 怎么做钓鱼网站网站建设总结
  • 佛山哪里有做网站的优化大师手机版下载
  • 中移建设有限公司网站seo排名是什么意思
  • mysql做网站怎么查看数据搜索引擎关键词怎么优化
  • 代理招商网免费加盟什么是seo和sem
  • 品牌高端网站制作机构seo优化专员编辑
  • 咸宁商城网站建设关键词搜索排名优化
  • 网站建设通知书橘子seo历史查询
  • 建设工程图审管理信息系统网站百度推广代理商有哪些
  • 贵阳住房和城乡建设部网站站长工具权重