当前位置：首页 > news >正文

【大模型基础_毛玉仁】5.2 模型编辑经典方法

news 2025/8/24 4:06:42

5.2 模型编辑经典方法

模型编辑可分为外部拓展法和内部修改法。

外部拓展法：通过特定训练程序，使模型在保持原有知识的同时学习新信息，包括知识缓存法和附加参数法。
内部修改法：通过调整模型内部特定层或神经元，实现对模型输出精确控制，包括元学习法和定位编辑法。

图5.4: 模型编辑方法分类图
在这里插入图片描述

5.2.1 外部拓展法

外部拓展法通过附加外部参数或知识库存储新知识，与原始模型共同构成编辑后模型，适合可扩展性强的预训练大语言模型，且不会改变原始参数、降低对预训练知识干扰。

根据外部组件是否直接整合进推理过程，分为知识缓存法和附加参数法。

1）知识缓存法

知识缓存法包含门控单元、编辑缓存和推理模块三个组件。

编辑缓存：存储需修改的知识，
门控单元：判断输入问题与缓存知识的相关性，
推理模块：学习预测期望结果。

推理时，门控单元若判断问题与缓存知识相关，则将知识与问题一同交予推理模块；反之则用原始模型推理。如问题与缓存知识无关，由原始模型作答；若相关，则由推理模块给出修改后答案。

图5.5: 知识缓存法示意图
在这里插入图片描述

编辑缓存中知识点的存储形式分为三种：

事实知识：以问题-答案对存储，适用于答案明确的事实性问题；SERAC是种代表性方法。
自然语言补丁（Language Patch）：按“如果⋯⋯那么⋯⋯”句式描述，用于修正模型对自然语言中非字面含义语句的理解，便于人类反馈修正输出；
正则表达式：基于文本匹配和替换，适用于精确的文本语义替换，但因编写复杂、泛化性低，在模型编辑中不常用。

知识缓存法通过检索编辑缓存中的信息，不依赖目标标签的梯度信息，使模型编辑更高效直接，但只是从外界获取知识而非内化。附加参数法改良了这一局限。

2）附加参数法

附加参数法通过将外部参数整合进模型结构，有效利用和扩展模型功能。其思想类似参数高效微调中的参数附加方法，即插入外部参数到模型特定位置，冻结原始模型，只训练新参数以修正输出。不同方法插入位置不同，如CALINET和T-Patcher修改最后一层Transformer的全连接前馈模块，GRACE则以适配器形式插入特定Transformer层中，且适配器会持续更新。

图5.6: 附加参数法示意图
在这里插入图片描述

知识缓存法引入编辑缓存机制，辅助模型定位检索信息；附加参数法引入额外参数，精细调整模型输出。两者均尽量减少对原始模型的干预，保证模型编辑的局部性。

但外部拓展法的有效性依赖知识存储与检索能力，易增加存储资源需求，因此应用时需平衡模型局部性和存储限制。

5.2.2 内部修改法

内部修改法：旨在通过更新原始模型的内部参数来为模型注入新知识。

内部修改法分为：元学习法和定位编辑法。

1）元学习法

(1).介绍

元学习指的是模型“学习如何学习”（Learning to Learn）的过程。基于元学习的模型编辑方法，旨在让模型“学习如何编辑”（Learning to Edit）。

核心思想：是让模型通过一系列编辑任务提取通用知识（称为元知识 ω），并将其应用于未见过的编辑任务。元知识的训练过程被称为元训练。

元知识可以是优化器参数、超网络等形式，而元训练的目标是获得一个较好的元知识，使得后续的每次编辑只需少量样本即可快速适应新任务。

(2). 元训练过程

元训练过程可以看作一个双层优化（Bilevel Optimization）问题。

内层优化：是模型在不同编辑任务上的优化，
外层优化：是元知识在验证集中的编辑任务上的综合优化。

公式 5.5 表示双层优化的数学形式，其中外层优化通过验证集损失更新元知识，内层优化作为约束条件。

$\omega^* = \arg \min_{\omega} \sum_{i=1}^{n} L_{\text{meta}}(\theta^{*(i)}(\omega), \omega, D_{k}^{\text{val}(i)})$

$\text{s.t. } \theta^{*(i)}(\omega) = \arg \min_{\theta} L_{\text{edit}}(\theta^{(i)}, \omega, D_{k}^{\text{train}(i)})$

内层优化：

针对具体编辑任务，优化模型参数 $\theta^{*(i)}$ 。
使用训练集 $D_{k}^{\text{train}(i)}$ 和损失函数 $L_{\text{edit}}$ ，在元知识 $\omega$ 的基础上更新模型参数。
目标是最小化模型在训练集上的预测误差。

外层优化：

优化元知识 $\omega$ ，使其能够泛化到其他编辑任务。
使用验证集 $D_{k}^{\text{val}(i)}$ 和损失函数 $L_{\text{meta}}$ ，根据模型在验证集上的表现更新元知识。
目标是找到一个元知识 $\omega^*$ ，使得基于该知识优化后的模型在所有验证集上的预测误差之和最小。

图 5.7 直观展示了这一过程。

图 5.7: 元学习法示意图

在这里插入图片描述

(3). 模型编辑方法

ENN： 将元知识视为优化器参数，通过更新优化器参数来提高模型在编辑任务中的训练效率，从而实现快速编辑。然而，ENN 主要针对小型网络 ResNet 设计，应用于大型模型时存在训练成本高的问题。

KE：将元知识作为超网络，通过训练超网络来学习模型参数的更新值。在训练过程中，损失函数包含准确性和局部性两部分，并设置边界值来约束严格程度。训练好的超网络能够根据输入问题生成模型的参数更新值，保持其他预测不变。

MEND：在 KE 的基础上，通过低秩分解优化超网络辅助模型参数更新的过程。它利用梯度的秩-1 特性，将梯度分解为两个向量的乘积，超网络接收分解后的向量并输出新向量，最终通过缩放因子计算模型参数更新值。MEND 以较少的参数高效地编辑大型模型，节省了计算资源和内存。

(4). 总结

元学习编辑方法通过“学习如何编辑”提升模型适应性和泛化能力，能从多个编辑任务中提取通用知识，快速适应新任务，节省资源。但训练复杂，成本高，对大型模型适应性需提升，且可能影响模型原有知识，导致不稳定。KE和MEND通过技术优化参数更新，但仍有改进空间。

2）定位编辑法

(1). 介绍

定位编辑法通过修改原始模型的局部参数来实现高效编辑，其核心步骤包括：

定位需要修改的参数位置；
对该位置的参数进行修改。

这种方法依赖于对大语言模型中知识存储机制的理解。

研究发现，Transformer 中的全连接前馈模块可以被视为存储知识的键值存储体，其中输入为查询（query）向量，上投影矩阵中的向量为键（key）向量，下投影矩阵中的向量为值（value）向量。

(2). 实验

图 5.8: Transformer 可看作键值存储体
在这里插入图片描述

图 5.8 展示了在模型底层全连接前馈模块上的实验过程。

实验 1 中，每个 key（如 k2）与所有 query（q1, q2, q3, …）做内积运算，发现 k2 与包括 q2 在内的几个 query 的激活值较大。这些 query 对应的前缀有相同或相似模式（如以“斑马的”结尾）。
实验 2 中，将每个 key 对应的 value（如 v2）与输出嵌入层矩阵相乘并转换为概率分布，发现与下一个词的相关性很高（如 v2 对应下一个词“条纹”的概率最大）。

综合实验结果，指出：Transformer 的全连接前馈模块可视为键值存储体，通过 key 总结句子前缀特征，并通过键值匹配机制查找下一个词的概率分布。

(3). 模型编辑方法

KN：提出知识神经元概念，定义为全连接模块的中间激活值，与知识点表达密切相关。通过掩码文本输入和梯度分析，确定关键神经元并过滤贡献较小的神经元。修改特定知识神经元的键向量，可实现模型知识编辑。

ROME：通过因果跟踪实验探索了模型中间层全连接前馈模块与知识的关系，并提出更新整个前馈模块进行编辑的方法。在GPT-J模型上的实验表明，ROME在准确性、泛化性和局部性方面表现良好。

MEMIT：在ROME基础上扩展，能够同时对数千个知识点进行大规模编辑，提升了编辑效率和规模。

(4). 总结

定位编辑法通过修改大语言模型的局部参数，在保持模型整体结构和性能的同时，实现对特定知识点的精准更新和编辑。相比其他方法，它在准确性、泛化性和局部性方面表现优异，且具有广泛的模型适用性。

5.2.3 方法比较

表 5.2: 模型编辑方法比较。

方法分类	方法	准确性	泛化性	可迁移性	局部性	高效性
外部拓展法	知识缓存法
	SERAC	高	高	低	高	✓
	附加参数法
	CaliNET	低	低	-	中	✓
	T-Patcher	高	高	高	中	✗
内部修改法	元学习法
	KE	低	低	-	高	✓
	MEND	中	高	中	高	✓
	定位编辑法
	KN	中	低	-	中	✗
	ROME	高	高	高	高	✗
	MEMIT	高	高	高	高	✓