当前位置：首页 > news >正文

为什么 LoRA 梯度是建立在全量参数 W 的梯度之上

news 2025/9/24 1:34:06

🧠 首先搞清楚 LoRA 是怎么做微调的

我们原来要训练的参数矩阵是 $W$ ，但 LoRA 说：

别动 W，我在它旁边加一个低秩矩阵 $\Delta W = UV$ ，只训练这个部分！

也就是说，LoRA 用一个新的权重矩阵：

$W^{'} = W + U V$

只训练 $U$ 和 $V$ ， $W$ 不动。

📦 所以前向传播其实用的是：

$\text{模型输入}x \longrightarrow W'x = Wx + UVx \longrightarrow \text{输出} \longrightarrow \mathcal{L}$

在这个过程中，损失函数 $\mathcal{L}$ 是基于 $W + U V$ 来计算的。

🔁 反向传播的时候怎么求梯度？

LoRA 要训练的是 $U$ 和 $V$ ，所以我们要算：

$\frac{\partial \mathcal{L}}{\partial U} \quad \text{和} \quad \frac{\partial \mathcal{L}}{\partial V}$

但问题是：损失函数 $\mathcal{L}$ 不是直接依赖 $U$ 和 $V$ ，而是依赖 $U V$

所以要用链式法则，先对 $U V$ 求导，然后传播回 $U$ 、 $V$ 。而对UV求导等价于对 $W$ 求导

✅ 关键点来了

我们记：

$\frac{\partial \mathcal{L}}{\partial W} = G$

这个 $G$ 就是“如果我们在做全量微调，该怎么更新 $W$ 的梯度”。

LoRA 说：

“虽然我不更新 $W$ ，但我要更新的是 $U V$ 。所以我也可以用这个 $G$ 来指导我怎么更新 $U$ 和 $V$ 。”

于是我们得到：

$\frac{\partial \mathcal{L}}{\partial U} = G V^\top, \quad \frac{\partial \mathcal{L}}{\partial V} = U^\top G$

LoRA 的梯度建立在 $\frac{\partial \mathcal{L}}{\partial W}$ 上，是因为它相当于“用低秩矩阵 $U V$ 来代替全量的参数更新”，所以梯度传播也必须从 $\frac{\partial \mathcal{L}}{\partial W}$ 开始。
LoRA 往往只是显存不足的无奈之选，因为一般情况下全量微调的效果都会优于 LoRA，所以如果算力足够并且要追求效果最佳时，请优先选择全量微调。
使用 LoRA 的另一个场景是有大量的微型定制化需求，要存下非常多的微调结果，此时使用 LoRA 能减少储存成本。

🔍 为什么

为什么 $\frac{\partial \mathcal{L}}{\partial W}$ ，就是对 $U V$ 的梯度？

换句话说：LoRA 中的 $W^{'} = W + U V$ ，那我们训练时不是更新 $W$ ，只更新 $U V$ ，那为什么还能用 $\frac{\partial \mathcal{L}}{\partial W}$ 来指导 $U$ 和 $V$ 的更新呢？

✅ 答案是：因为前向传播中 $W + U V$ 是一起作为整体参与运算的

所以：

$\frac{\partial \mathcal{L}}{\partial W} = \frac{\partial \mathcal{L}}{\partial (W + UV)} = \frac{\partial \mathcal{L}}{\partial (UV)}$

这是因为：

我们的模型使用的是 $W + U V$
所以损失函数 $\mathcal{L}$ 是以 $W + U V$ 为输入计算出来的
那么对 $W$ 求导，其实是对这个整体求导
而因为 $W$ 是固定的（不训练，看作常数），所以梯度全部由 $U V$ 来承接

本来我们应该更新 $W$ ：
$\leftarrow W - \eta \frac{\partial \mathcal{L}}{\partial W}$
现在我们不动 $W$ ，让 $U V$ 来“做这个事情”：
$\leftarrow W + UV - \eta \cdot \left(\text{LoRA方向上的梯度}\right)$