当前位置：首页 > news >正文

一种新的参数高效微调方法-LoRI

news 2025/10/8 19:32:13

论文：LoRI: Reducing Cross-Task Interference in Multi-Task Low-Rank Adaptation

LoRA 具体参考

1. 引言与背景：为什么需要 LoRI？

这篇论文提出了一种新的参数高效微调（PEFT）方法，名为 LoRA with Reduced Interference (LoRI)。LoRI 旨在解决传统 LoRA 的局限性

传统 LoRA 的局限性（论文中指出）：

显著的参数开销 (Notable Overhead)： 尽管 LoRA 比全量微调更高效，但它仍然引入了相当数量的可训练参数，特别是当任务数量很多时（例如 2×r×d，其中 r 是秩， d 是维度）。
- LoRI 的实现方式是将投影矩阵 A 固定为随机投影，并使用任务特定的掩码来稀疏化矩阵 B。
多任务场景下的参数干扰 (Parameter Interference in Multi-Task Scenarios)： 这是一个关键问题。当多个 LoRA 适配器（每个适配器针对不同任务训练）被合并或用于多任务学习设置时，它们之间会相互干扰，导致单个任务的性能下降或难以平衡跨任务的性能。这是因为这些适配器可能学到冲突或重叠的权重更新，当试图将它们结合时，会导致类似“灾难性遗忘”的问题。
- 通过利用子空间的正交性最小化了适配器合并时的跨任务干扰
持续学习中的挑战 (Challenges in Continual Learning)： 与干扰相关，在持续学习中（模型顺序学习新任务），传统 LoRA 适配器在引入新任务时，由于参数更新的重叠，难以保持在先前学习任务上的性能。
- 通过稀疏性缓解灾难性遗忘来支持持续学习

大量的实验表明，LoRI 在性能上优于全量微调和其他 PEFT 方法，并且可训练参数比 LoRA 少 95%。在多任务实验中，LoRI 实现了有效的适配器合并和持续学习，并减少了跨任务干扰。

2. LoRI 方法：它是如何工作的

在这里插入图片描述

LoRI 通过对 A 和 B 施加特定约束来重新定义 LoRA 更新 $Δ W = B A$ 。

2.1 核心思想：

LoRI 不像传统 LoRA 那样训练矩阵 A 和 B，而是将矩阵 A 固定为随机投影，并且只训练稀疏矩阵 B。

2.2 LoRI 的详细解释：

矩阵 A 的随机投影 (Random Projection for Matrix A)：
- 机制： 对于每个 LoRA 适配器，矩阵 $A∈R^{d×r}$ （其中 $d$ 是基础权重矩阵的维度， $r$ 是 LoRA 秩）会随机初始化（例如，使用标准正态分布），然后完全冻结。它在微调过程中不被训练。
- 作用：
  - 参数减少： 通过冻结 A，可训练参数数量立即减半，比标准 LoRA 少一半 ( $d \times r$ vs. $2 \times d \times r$ )。
  - 子空间正交性（对合并至关重要）： 随机投影在维度较高时，倾向于生成近似正交的子空间。这个特性是减少合并多个适配器时干扰的关键。如果不同任务通过随机 A 矩阵被投影到“更不重叠”（更独特）的子空间中，那么它们在 B 中学到的更新就不太可能相互干扰。
  - 减少过拟合： 更少的可训练参数也有助于防止对特定任务数据过拟合。
  - 固定特征提取： A 充当一个固定的、随机的特征提取器或降维器，将高维输入映射到低维空间，然后由 B 在该空间进行任务特定的调整。
矩阵 B 的稀疏化 (Sparsification of Matrix B)：
- 机制： 对于每个 LoRA 适配器，矩阵$ B∈R^{r×d}$ 被训练，但会应用一个任务特定的二元掩码 $M∈{0,1}r×d$ 进行元素级操作 ( $B' = B ⊙ M$ )。只有当 $M_{i,j}=1$ 的元素才可训练。
- 掩码的确定方式：
  1. 初始化： 矩阵 B 在开始训练时被初始化。
  2. 随机选择可训练参数： LoRI 会在 B 矩阵中随机选择一定比例（10%）的元素作为可训练参数，而将其余的 (90%) 元素设置为零并冻结。这个选择过程在每个 LoRA 适配器（即每个任务）的初始化时独立进行。
  3. 任务特定性： 因为这个随机选择过程是针对每个任务的 LoRI 适配器独立进行的，所以生成的稀疏模式对于每个任务都是“特定”的。这意味着不同的任务的 LoRI 适配器所训练的 B 矩阵的非零位置很可能是不同的，或者至少大部分不重叠。
  4. 训练： 在训练过程中，只有被选中的那些非零参数会根据梯度进行更新，其他参数始终保持为零。
- 作用：
  - 进一步参数减少： 这显著减少了矩阵 B 中可训练参数的数量。
  - 有针对性的适应： 稀疏性允许每个任务以高度有针对性的方式适应模型，只修改 B 中特定、有限的参数集。
  - 减少干扰（持续学习）： 通过确保不同任务修改 B 中大部分不重叠（或至少重叠较少）的参数集，从根本上减少了跨任务干扰。这对于持续学习特别有利，因为它直接缓解了灾难性遗忘。如果一个新任务只更新 B 中一小部分不重叠的参数，它就不太可能降低先前学习任务的性能。

2.3 LoRI-S (Sparsified) 与 LoRI-F (Fixed/Frozen A)：

论文可能使用 “LoRI-S” 指代完整的 LoRI 方法，即同时使用随机 A 和稀疏 B；而 “LoRI-F” 可能仅指固定 A 的方面。但核心创新是固定随机 A 和稀疏 B 的结合。

2.4 数学公式（隐含）：

针对特定任务 $t$ 的更新后的权重矩阵 $W_t$ 将是：

$W_t=W_0+ΔW_t=W_0+(B_t⊙M_t)A_t$

其中：

$W_0$ 是预训练的基础模型权重矩阵（冻结）。
$A_t$ 是任务特定的随机投影矩阵（固定，冻结）。
$B_t$ 是任务特定的可训练矩阵。
$M_t$ 是 $B_t$ 的任务特定二元稀疏性掩码。

3. LoRI 合并 (LoRI Merging)：减少跨任务干扰

这是论文中最重要的一项主张。

3.1 标准 LoRA 合并的问题：

当你为不同任务拥有多个 LoRA 适配器 ( $B A 1, B A 2, \dots, B A N$ )，并且希望将它们合并到单个模型中（例如，用于多任务推理或节省内存）时，常见的合并策略包括：

求和： $ΔW_{merged}=∑i=1/N B_iA_i$
线性平均：$ ΔW_{merged}=∑i=1/N α_iB_iA_i $（其中$ α_i$ 是权重）
连接 (Concatenation)： （如 Figure 7 片段所示）通常指连接输出或更复杂的 B 矩阵合并。

问题在于，这些合并策略常常导致跨任务干扰。如果不同任务的更新 BiAi 显著重叠或将基础模型拉向冲突的方向，合并它们可能会降低单个任务的性能。这是因为标准 LoRA 适配器通常在参数空间中学习相似或冲突的方向。

3.2 LoRI 如何解决合并中的干扰：

利用适配器子空间之间的正交性：
- 由于 LoRI 使用了随机初始化且固定的 A 矩阵 (At)，这些矩阵将输入空间投影到很大程度上正交或彼此高度不同的子空间中。
- 如果 A1 和 A2 投影到大部分正交的方向上，那么它们的更新 B1A1 和 B2A2 在整个模型参数空间中也会更不重叠。
- 直觉： 想象每个 At 就像一个“过滤器”或“投影仪”，它将原始高维信息映射到一个独特的低维“任务视角”。如果这些“视角”本身就是独立的，那么即使在这些“视角”上进行修改（通过 B 矩阵），它们对原始模型的影响也会保持相对独立。
- 效果： 减少了不同任务适配器在参数空间中“争抢”或“覆盖”彼此更新的可能性。当这些更新被合并时，它们能够更和谐地共存，从而在多任务设置中保持更好的性能。
稀疏性进一步强化了独立性：
- 除了 A 的正交性，B 的稀疏性也意味着每个任务只修改了 B 中非常有限且可能与其他任务不重叠的元素。
- 结合 A 的正交投影和 B 的稀疏更新，LoRI 使得不同任务的更新在结构上和方向上都更加独立，从而显著减少了合并时的干扰。
- 论文在实验中探索了合并 LoRI-S 适配器的效果（使用连接和线性合并）。虽然它仍然发现“代码任务和其他领域（如 NLU 和数学）的性能之间存在显著的权衡”，这意味着即使是 LoRI 也不可能完全消除所有权衡，但关键在于 LoRI 能够实现有效的适配器合并，并且在性能曲线上的权衡可能比传统 LoRA 更好，因为它减少了跨任务干扰。这个“权衡”本身可能不是干扰的体现，而是多任务学习固有的挑战，即如何平衡通用性和专业化。但 LoRI 提供了一种更好的基础，使得这种平衡更容易实现，因为适配器本身更“干净”和独立。

4. LoRI 持续学习 (LoRI Continual Learning)：缓解灾难性遗忘

持续学习是 LoRA 和 PEFT 方法的一个重要应用场景，但传统 LoRA 在此面临“灾难性遗忘”的问题，即学习新任务后，模型在旧任务上的性能会显著下降。LoRI 旨在缓解这个问题。

4.1 传统 LoRA 在持续学习中的挑战：

当一个 LoRA 适配器为新任务训练时，它会修改 B 和 A 矩阵。由于这些矩阵是稠密且共享的（在不同任务之间没有明确的参数隔离），新任务的更新可能会覆盖或改变模型中对旧任务很重要的参数空间。这导致模型“忘记”了它在旧任务上学到的知识。

4.2 LoRI 如何缓解灾难性遗忘：

利用任务特定的稀疏性 (Task-Specific Sparsity)：
- LoRI 的核心在于为每个任务使用一个任务特定的稀疏掩码 Mt 来限制矩阵 Bt 的可训练参数。这意味着，对于每个新学习的任务，LoRI 只会更新 Bt 中非常小且特定的子集。
- 直觉： 想象每个任务都在 LoRI 适配器中拥有自己的“专属区域”或“私人抽屉”。当学习新任务时，你只打开并修改新任务的“私人抽屉”，而不会去动旧任务的“私人抽屉”。
- 效果： 通过确保不同任务主要修改 B 中不重叠的参数子集，LoRI 显著减少了新任务学习时对旧任务知识的干扰。如果新任务修改的参数与旧任务修改的参数是分离的，那么旧任务的性能就不会受到影响。
固定随机投影 A 的辅助作用：
- 虽然 B 的稀疏性是主要机制，但 A 的固定随机投影也间接有助于此。因为 A 已经将输入映射到相对独立的子空间，B 在这些子空间内的稀疏更新进一步确保了不同任务的独立性。
对比：
- 传统 LoRA： 类似于每个新任务都在同一张纸上写字，可能会覆盖之前的内容。
- LoRI： 类似于每个新任务在同一张纸上的不同预留区域写字，或者在不同层叠的透明纸上写字，减少了相互擦除的风险。

5. “正交”概念的理解及其在 LoRI 中的重要性

论文中反复提到“正交”或“正交性”，这在理解 LoRI 减少干扰的机制中至关重要。

5.1 什么是“正交”？（具象化理解）

在数学和几何中，正交（Orthogonality）是“垂直”或“不相关”的推广。

二维空间： 最直观的例子是二维平面上的两条直线，如果它们垂直相交，我们就说它们是正交的。它们的方向完全独立，一个方向的变化不会影响另一个方向。
高维空间： 在更高维的向量空间中，如果两个向量的点积为零，它们就是正交的。这意味着它们在空间中指向完全不同的、相互独立的“方向”。它们之间没有“重叠”的投影。
子空间的正交： 更进一步，如果两个子空间中的所有向量都相互正交，那么这两个子空间就是正交的。这意味着这两个子空间彼此完全独立，互不影响。

5.2 为什么 LoRI 会用到正交这个点？

在 LoRI 中，正交性主要体现在随机投影矩阵 A 的设计上，它用于减少不同任务适配器在参数更新时的相互干扰。

我们知道 LoRA 的更新是 ΔW=BA。LoRI 将 A 固定为随机矩阵。

核心思想：随机投影产生近似正交的子空间。
- 当维度很高时（LLM 的参数空间维度非常高），随机生成的向量或矩阵往往会近似正交。这意味着，如果我随机生成一个矩阵 A1 和另一个矩阵 A2，它们所定义的线性变换（即它们将输入向量投影到的子空间）在统计上倾向于彼此不重叠或正交。
- 换句话说，A1 捕捉到的“信息维度”与 A2 捕捉到的“信息维度”是相互独立的。
LoRI 如何利用这一点减少干扰：
1. 任务分离： 假设我们有两个任务，Task 1 和 Task 2。它们分别对应 LoRI 适配器 ΔW1=B1A1 和 ΔW2=B2A2。
2. A 的作用： 因为 A1 和 A2 都是随机生成并冻结的，它们会将原始的特征空间投影到两个近似正交的低维子空间中。
3. B 的作用： B1 和 B2 负责在各自的（近似正交的）低维子空间内进行任务特定的微调。
4. 合并时减少干扰： 当我们尝试合并这些适配器时（例如 ΔWmerged=ΔW1+ΔW2），由于 A1 和 A2 所定义的子空间已经是近似正交的，Task 1 通过 B1A1 对模型进行的修改，与 Task 2 通过 B2A2 对模型进行的修改，它们在整个高维参数空间中是相对独立的。一个任务的更新不太可能“覆盖”或“抵消”另一个任务的更新。
5. 具象化类比：
  - 传统 LoRA： 就像两个画家在同一块画布上共同画一幅画，他们可能会在同一区域反复修改，导致颜色混合、线条冲突，最终效果不理想。
  - LoRI： 就像两个画家分别在两块透明且方向不同的画布上画画（A 定义了画布的方向/视角），然后将这两块画布叠加起来。由于画布本身的方向不同且独立，他们各自在画布上进行的修改（B）即使叠加在一起，也不会产生太多的冲突，因为它们关注的是不同的“维度”或“方面”。