当前位置：首页 > news >正文

【大模型基础_毛玉仁】5.1 模型编辑简介

news 2025/9/19 23:04:52

5 模型编辑

下面，首先介绍模型编辑思想、定义、性质，其次介绍模型编辑经典方法，然后举例介绍模型编辑的具体方法 T-Patcher 和 ROME，最后介绍模型编辑的实际应用。

5.1 模型编辑简介

大语言模型存在偏见、毒性、知识错误等问题，有三种解决方法：

清洗数据重训练：用清洗过的数据重新预训练，但成本过高，不划算。
高效微调：通过高效微调技术注入新知识，但新知识样本少，易过拟合和灾难性遗忘。
模型编辑：精准修正模型中的特定知识点。

5.1.1 模型编辑思想

模型编辑的思想：旨在通过增加或修改模型参数，快速有效地改变模型行为和输出。

5.1.2 模型编辑定义

当前，模型编辑领域缺乏统一标准，不同研究对相关概念的定义存在差异。本书对这些概念进行了整合：

将基于知识的模型编辑（KME, Knowledge Model Editing）和知识编辑（KE, Knowledge Editing）等概念统一为模型编辑（ME, Model Editing）。
对于具体编辑对象，有些研究用编辑（edit）或事实（fact）来表示，这里将这些概念统一为“知识点”。

模型编辑的目标可被归纳为：修正大语言模型使其输出期望结果，同时不影响其他无关输出。这里将模型编辑定义如下：

定义 5.1 (模型编辑)

将编辑前模型定义为M，编辑后模型定义为 M^*。每一次编辑都修改模型的一个知识点 k，知识点 k 由问题 x_k 及其对应的答案 y_k 组成。模型编辑的目标可以表示为以下函数：

$M^*(x) = \left\{ \begin{array}{ll} y_k, & \text{若 } x = x_k \text{ 或 } x \text{ 与 } x_k \text{ 相关}, \\ M(x), & \text{若 } x \text{ 与 } x_k \text{ 无关}. \end{array} \right.$

实际的模型编辑比理论复杂，因为知识内在关联，改一个知识点可能影响其他相关知识，产生“牵一发而动全身”的效果。所以，精确控制模型编辑范围是关键挑战。精准可控的模型编辑技术需满足一系列性质，这些性质既反映模型编辑的复杂性，也是评估和改进编辑方法的重要指标。

5.1.3 模型编辑性质

核心目标： 纠正模型的错误回答，使其输出期望的答案。

关键要求：

考虑到知识的内在关联性，需要精准控制模型编辑的范围；
保证编辑效率；

因此，需要从多个方面控制模型编辑过程。

这里，将模型编辑的性质归纳为五个方面，分别为准确性（Accuracy）、泛化性（Generality）、可迁移性（Portability）、局部性（Locality）和高效性（Efficiency）。

图 5.3: 模型编辑性质关系图
在这里插入图片描述

1）准确性

准确性是模型编辑的基本要求，衡量对知识点 k 的直接修改是否有效。

评估时选取知识点 k 中代表性输入输出对(x_k, y_k)，通过公式:

$Acc = I(M^∗(x_k) = y_k)$

评估编辑后模型是否能准确回答x_k，其中指示函数 I(·) 在模型输出与答案匹配时为 1，否则为 0。

多次编辑可用均值计算平均准确率，确保模型符合预期，准确执行任务。

2）泛化性

泛化性用来衡量编辑后模型能否适应目标问题 x_k 的其他表达形式。

为了评估编辑后模型的泛化性，研究者构造一个泛化性数据集 $D_G = \{(x_i, y_k)\}_{i=1}^{|D_G|}$ ，其中 x_i 是与 x_k 具有语义相似性的问题，它们的答案都为 y_k。采用以下公式量化编辑后模型的泛化性：

$\frac{1}{|D_G|} \sum_{i=1}^{|D_G|} I(M^*(x_i) = y_k)$

当 Gen 的值为 1 时，说明编辑后模型能够正确回答 D_G 中的所有问题，此时泛化性最好。确保编辑模型的泛化性可以防止编辑后模型过度拟合特定的输入，从而保证模型对于知识点的理解。

3）可迁移性

可迁移性是指编辑后模型将特定知识点 k 迁移到其它相关问题上的能力。

可迁移性数据集： 表示为 $D_p = {(x_i, y_i)} $，其中：

x_i : 与原始问题 x_k 相关但形式不同的问题（如反向、推理、实体转换问题）;
y_i : 对应答案（与泛化数据集 D_c 的答案不重叠）;

问题类型示例：（所有答案均非“黑色”）

反向问题：“皮肤颜色为黑色的马达什么马？”
推理问题：“斑马的皮肤颜色是否与其它皮颜色相同？”
实体转换问题：“黑白条纹相同的马的皮肤是什么颜色的？”

量化公式： 采用以下公式量化编辑后模型的可迁移性

$\frac{1}{|D_P|} \sum_{i=1}^{|D_P|} I(M^*(x_i) = y_i)$

Part=1: 模型完全可迁移（正确回答所有问题）
衡量模型对知识点的跨场景迁移能力

核心挑战： 多数模型编辑方法难以实现高可迁移性，需提升模型对知识本质的捕捉而非形式适配。

4）局部性

局部性要求编辑后的模型不影响其他不相关问题的输出。

将局部性数据集定义为 $D_L = {(x_i, M(x_i))}_{i=1}^{|D_L|}$ ，其中 x_i 是与 x_k 无关的问题。采用以下公式量化编辑后模型的局部性：

$\frac{1}{|D_L|} \sum_{i=1}^{|D_L|} I(M^*(x_i) = M(x_i))$

当 Loc 的值为 1 时，编辑后模型的局部性最好，此时模型对局部性数据集中所有问题的回答与编辑前一致。确保局部性能够降低模型编辑的副作用，是模型编辑相较于朴素微调的重要改进。

5）高效性

高效性关注模型编辑的时间和资源消耗。

实际应用中，模型需频繁更新纠错，要求编辑过程快速且资源友好。不同方法处理效率有别，有的支持批量并行，有的需依次进行。高效性直接影响到模型编辑的可行性和实用性。

小结：
评估模型编辑方法时，要在准确性、泛化性、可迁移性、局部性和高效性间寻求平衡，理想方法应在保证准确性的基础上，提升泛化性等性质，同时保持高效。

5.1.4 常用数据集

表 5.1: 模型编辑相关数据集总结表格。

数据集	类型	训练集数量	测试集数量	输入	输出
zsRE	知识关联	244,173	244,173	事实陈述	对象
COUNTERFACT	知识关联	N/A	21,919	事实问题	对象
WikiGen	文本生成	N/A	68,000	Wiki 段落	续写
T-REx-100/-1000	知识关联	N/A	100/1,000	事实陈述	对象
ParaRel	知识关联	N/A	253,448	事实问题	对象
NQ-SituatedQA	问答	N/A	67,000	用户查询	答案
MQuAKE-CF/-T	知识关联	N/A	9,218/1,825	多跳问题	对象
Hallucination	幻觉	N/A	1,392	传记	传记
MMEEdit-E-VQA	多模态	6,346	2,093	图像问题	答案
MMEEdit-E-IC	多模态	2,849	1,000	图像描述	描述
ECBD	知识关联	N/A	1,000	实体完成	引用实体
FEVER	事实检查	104,966	10,444	事实描述	二进制标签
ConvSenti	情感分析	287,802	15,989	主题意见	情感
Bias in Bio	人物传记	5,000	5,000	传记句子	职业
VitaminC-FC	事实检查	370,653	55,197	事实描述	二进制标签
SCOTUS	分类	7,400	931	法庭文件	争议主题