当前位置：首页 > news >正文

CATASTROPHIC FAILURE OF LLM UNLEARNING VIA QUANTIZATION

news 2025/11/6 17:01:00

文章目录

- 摘要
- 1.引言
- 2 相关工作
- 3方法
- - 预备知识
  - 3.1 针对大型语言模型的机器遗忘与量化
  - 3.2 以最小权重变化和效用保留实现遗忘
- 4 量化导致遗忘的灾难性失败
- - 4.1 实验设置
  - 4.2 量化对LLM遗忘的影响
  - 4.3 量化精度对遗忘的影响
  - 4.4 不同量化技术对遗忘的影响
- 5 量化导致遗忘失败的解释
- 6 量化鲁棒的遗忘
- - 6.1 提出的方法框架
  - 6.2 实验
- 7 结论

摘要

大型语言模型（LLMs）在生成文本方面表现出卓越的能力，这得益于其在海量文本语料上的广泛训练。然而，LLMs 也可能从其多样且敏感的训练数据中习得不良行为，这些数据中可能包含受版权保护和隐私的内容。机器遗忘（machine unlearning）被提出作为一种可行的解决方案，用于在无需耗时耗力重新训练的情况下，去除这类问题内容的影响。该过程旨在从 LLM 中抹除特定知识，同时尽可能保留模型的效用。尽管现有的遗忘方法效果显著，但很少有人关注现有针对 LLM 的遗忘方法是否真正实现了“遗忘”，还是仅仅隐藏了知识，而现有的遗忘基准测试并未能检测到这一点。本文揭示，对已进行遗忘处理的模型应用量化技术，可以恢复那些“被遗忘”的信息。我们通过多种量化技术和不同精度水平，进行了全面的实验以深入评估这一现象。研究发现，对于带有效用约束的遗忘方法，完整精度模型中平均保留了 21% 的目标遗忘知识，而经过 4-bit 量化后这一比例显著升至 83%。基于实证结果，我们提供了该现象的理论解释，并提出了一种针对量化鲁棒性的遗忘策略，旨在缓解这一复杂问题。我们的结果凸显了保持遗忘模型效用与防止通过量化恢复知识之间的根本矛盾，强调了在两者之间取得平衡的挑战。总体而言，本研究揭示了现有 LLM 遗忘方法的重大缺陷，强烈呼吁开发更全面、更稳健的策略，以确保真正实现遗忘且不损害模型效用。我们的代码开源地址为：https://github.com/zzwjames/FailureLLMUnlearning。

1.引言

大型语言模型（LLM）由于在大规模数据集上的训练，已展现出生成类人文本的卓越能力（Zhao 等，2023）。然而，LLM 也可能无意间从敏感训练数据中学习并复现不良行为（Liu 等，2024a；Sun 等，2024；Li 等，2024c；2025）。这些行为包括未经授权复制受版权保护的内容（Li 等，2024a）、生成诸如联系方式等私人信息（Huang 等，2022；Yan 等，2024），以及输出冒犯性或有害信息（Chao 等，2023）。这些风险带来了显著的伦理和安全隐患，使得 LLM 在实际应用中的安全和负责任部署变得更加复杂（Yao 等，2023）。此外，诸如欧盟《通用数据保护条例》（GDPR）（Voigt & Von dem Bussche，2017）等法律，提出了“被遗忘权”，允许用户请求将其个人数据从已训练的模型中移除（Xu 等，2024a）。

为消除训练语料中问题内容对 LLM 的影响，机器遗忘（Liu 等，2024a；Bourtoule 等，2021；Liu 等，2024c；Zhang 等，2024；Jang 等，2023；Eldan & Russinovich，2023；Huang 等，2024a；Jia 等，2024；Fan 等，2024a）成为一种有前景的解决方案，因为重新训练这些模型以消除不良数据的影响往往由于训练周期长且成本高而不可行。通常，LLM 的机器遗忘旨在去除对特定知识的记忆，同时最大程度地保留模型效用。在先进遗忘方法中，梯度上升（GA）（Yao 等，2023）和负偏好优化（NPO）（Zhang 等，2024）是最基础的。GA 通过对交叉熵损失进行梯度上升，降低模型对遗忘数据集进行正确预测的概率。而 NPO 将遗忘集视为负偏好数据，调整离线 DPO（Rafailov 等，2024）目标，使模型对遗忘集分配更低的概率。由于 GA 和 NPO 并未专门设计用于效用保持，通常会结合多种正则化技术（Shi 等，2024b；Maini 等，2024）以保留效用。例如，针对保留数据集，通过对保留集进行梯度下降（Zhang 等，2024；Maini 等，2024），以及最小化遗忘模型与目标模型在保留集输入上的概率分布之间的 KL 散度（Zhang 等，2024；Maini 等，2024），来增强遗忘模型的效用。

尽管这些方法在遗忘任务上表现优异，但很少关注现有 LLM 遗忘方法是否真正实现了知识“遗忘”，或只是将知识“隐藏”起来，而当前的遗忘评测标准无法检测到这种现象。本文发现，采用现有代表性遗忘方法训练出的遗忘模型，只需简单地对其进行量化即可部分甚至显著恢复被遗忘的知识。具体而言，如图1所示，针对一个目标模型和一个遗忘数据集，首先用遗忘方法对模型进行训练以移除遗忘数据集中的知识，得到一个遗忘模型。在测试阶段，遗忘模型在全精度下表现出优异的遗忘性能，然而，只需对其应用量化，遗忘效果便会受到破坏。如表1所示，在 BOOKS 数据集上应用 GA_KLR 遗忘方法（Shi 等，2024b）后，遗忘模型仅保留了其原始知识的 13%，但经过量化后，知识保留率恢复至约 89%。我们开展了系统性的实验，用多种量化技术、不同精度和不同基准测试，全面验证了我们的发现，强调了通过量化恢复知识这一关键问题的普遍性。我们认为这是实际应用中的重要隐患，因为在 LLM 时代，量化技术已被广泛用于在资源受限场景下部署模型（Dettmers 等，2024b；Frantar 等，2023；Lin 等，2024；Kim 等，2024）。当对模型进行微调以遗忘恶意/隐私内容时，尤其需要确保这些内容在模型量化之后无法被恢复。我们的核心假设是：为在不损失模型效用的前提下实现遗忘，现有方法通常采用较小的学习率，并在保留集上施加正则化，促使模型权重在遗忘过程中尽量少改变。由此，目标 LLM 和遗忘 LLM 的权重非常接近，因此量化后很可能会将目标 LLM 和遗忘 LLM 的权重映射为相同的值，这意味着量化后的目标 LLM 和量化后的遗忘 LLM 拥有相似的权重。由于量化后的目标 LLM 保留了绝大部分被遗忘的知识，量化后的遗忘 LLM 也会恢复这些知识。我们的理论分析见第 5 节。

现有 LLM 遗忘方法的灾难性失效促使我们设计能够解决全精度模型与量化模型在遗忘知识方面差异的框架。具体而言，基于我们的分析，我们建议同时提高遗忘损失和保留损失的学习率。遗忘损失惩罚模型保留遗忘集信息，而保留损失则确保对保留集的数据效用得以维持。这种方法有助于缓解量化恢复知识的问题，但遗忘梯度的激进更新会导致模型过度调整，从而整体效用下降。此外，在保留数据集上使用较大学习率可能会引入偏向保留数据的情况，影响模型在保留集以外任务上的表现。为缓解使用大学习率进行遗忘带来的副作用，我们借助定位感知遗忘方法（Fan 等，2024b；Meng 等，2022；Wu 等，2023；Wei 等，2024）的理念，构建模块级显著性图来指导遗忘过程，仅选择与待遗忘数据相关的最关键组件进行有针对性的更新。我们的实证结果表明，这种有针对性的策略有助于降低激进更新的风险、保持模型效用，并确保更平衡的遗忘效果。然而，该框架对超参数选择高度敏感，导致遗忘模型不稳定。我们的观察为后续研究提供了启发，倡导发展更稳健、更全面的面向量化鲁棒性的 LLM 遗忘方法。

我们的主要贡献如下：
（i）我们发现一个关键问题：对遗忘模型进行量化会导致被遗忘知识的恢复。我们进行了大量实验验证，并给出了理论解释。
（ii）我们的发现揭示了当前遗忘方法的根本性失效，并为 LLM 遗忘提出了一个新的关键目标：防止量化过程中知识的恢复，这也有助于规范遗忘方法的评测标准。
（iii）我们通过实证验证了理论分析，初步提出了解决方案，并开展了全面实验以启发后续研究。

2 相关工作

以下是该段英文内容的详细中文翻译：

2 相关工作

针对大型语言模型（LLM）的机器遗忘
机器遗忘由（Cao & Yang，2015）提出，其目标是使训练好的模型表现得好像没有在特定数据集上训练过，这对于因无差别地使用网络数据训练而面临隐私和版权问题的 LLM 来说尤为重要。传统方法如牛顿更新移除（Newton update removals）（Ginart 等，2019；Guo 等，2020；Sekhari 等，2021）因需计算复杂的 Hessian 矩阵，在 LLM 上不可行，因此催生了新的方法。这些方法大致分为微调（fine-tuning）（Yao 等，2023；Jang 等，2023；Chen & Yang，2023；Maini 等，2024；Eldan & Russinovich，2023；Patil 等，2024；Jia 等，2024）和上下文内遗忘（in-context unlearning）（Pawelczyk 等，2024；Thaker 等，2024；Huang 等，2024a）。微调方法利用梯度上升（GA）（Yao 等，2023），通过修改交叉熵损失，最大化遗忘数据集上的错误预测概率。负偏好优化（NPO）（Zhang 等，2024）调整离线 DPO（Rafailov 等，2024）目标，使模型对遗忘集赋予更低的概率。为兼顾效用保留，正则化优化将遗忘效果与模型效用损失相结合，如 Yao 等（2023）和 Maini 等（2024）提出的梯度差异方法。上下文内方法通过标注示例或后处理过滤等方式实现，但由于需要保留敏感数据，无法完全解决隐私问题（Pawelczyk 等，2024；Thaker 等，2024）。Huang 等（2024a）提出了利用代理模型的 logit 偏移方法，避免保留数据，但不符合遗忘的定义，因为其权重与重新训练的模型不匹配。尽管已有多项针对 LLM 的机器遗忘研究，我们的工作发现现有带正则化的遗忘方法由于权重变化极小，仍存在知识恢复问题，并提出了一种简单有效的解决方案。相关工作详情见附录 A。

针对大型语言模型的量化
量化通过将高精度参数映射到离散范围内，减少 LLM 的存储和计算需求，同时不改变模型结构。我们关注后训练量化（PTQ），它直接使用校准数据集对 LLM 进行量化，优化缩放因子而无需重新训练。早期的 PTQ 方法通常采用权重四舍五入到最近级别（RTN），以保证大模型的推理效率（Dettmers 等，2024b；Frantar 等，2023；Lin 等，2024；Kim 等，2024）。随后发展出更先进的 PTQ 策略以提升性能，例如 GPTQ（Frantar 等，2023）通过层级量化并结合逆 Hessian 信息更新权重，AWQ（Lin 等，2024）则将影响最大的权重保持高精度，并使用逐通道缩放方法。尽管量化技术研究广泛，但其对 LLM 遗忘的影响尚未得到充分探索，显示出该领域存在显著空白。近期 Kolbeinsson 等（2024）研究了知识编辑、模型压缩和机器遗忘在 LLM 上的相互作用。我们与其研究本质不同：（i）我们通过大量实验展示量化可恢复 LLM 遗忘的知识，并给出理论解释；（ii）我们指出了发展量化鲁棒遗忘方法的迫切需求，并提出了一种简单有效的框架，能够有效遗忘遗忘数据集中的知识，保持高效用，并缓解量化带来的知识恢复问题。

3方法

预备知识

本节首先在3.1节回顾针对大型语言模型（LLM）的机器遗忘和量化技术。随后在3.2节，我们展示证据表明现有遗忘方法通常采用较小的学习率，并对保留数据集施加模型效用约束。这些方法旨在通过最小化权重变化和保持模型效用，实现有效遗忘。

3.1 针对大型语言模型的机器遗忘与量化

机器遗忘的定义
给定一个预训练的LLM，考虑一个训练数据集 $D_{train}$ 和一个在 $D_{train}$ 上微调得到的模型 $f_{target}$ ，其参数为 $θ\theta$ 。定义“遗忘集” $Dforget⊂DtrainD_{forget} \subset D_{train}$ ，即需遗忘的训练数据子集。机器遗忘旨在消除 $D_{forget}$ 对模型的影响，得到一个遗忘模型 $f_{unlearn}$ ，其行为类似于只在保留集 $Dretain=Dtrain∖DforgetD_{retain} = D_{train} \setminus D_{forget}$ 上微调得到的模型 $f_{retrain}$ 。遗忘算法 $U$ 接受 $f_{target}$ 、 $D_{forget}$ ，以及可选的 $D_{retain}$ ，输出遗忘模型：

$f_{unlearn} = U(f_{target}, D_{forget}, D_{retain})$

最常用的机器遗忘优化目标为：

$min⁡θE(xf,yf)∈Dforget[Lforget(yf∣xf;θ)]+α⋅E(xr,yr)∈Dretain[Lretain(yr∣xr;θ)](1)\min_{\theta} \mathbb{E}_{(x_f, y_f) \in D_{forget}} \left[ \mathcal{L}_{forget}(y_f \mid x_f ; \theta) \right] + \alpha \cdot \mathbb{E}_{(x_r, y_r) \in D_{retain}} \left[ \mathcal{L}_{retain}(y_r \mid x_r; \theta) \right] \quad (1)$

其中， $Lforget\mathcal{L}_{forget}$ 是惩罚模型保留遗忘集信息的损失函数， $Lretain\mathcal{L}_{retain}$ 保证模型在保留集上的效用， $α\alpha$ 为正则化参数，平衡两者。不同的 $Lforget\mathcal{L}_{forget}$ 和 $Lretain\mathcal{L}_{retain}$ 选择详见附录B。

大型语言模型的量化
考虑一组或一块权重 $w$ ，线性运算可表达为：

$y = w x$

量化版本表示为：

$y = Q (w) x$

其中 $Q(⋅)Q(\cdot)$ 为量化函数。具体地（Lin等，2024）：

$\Delta \cdot \mathrm{Round}\left(\frac{w}{\Delta}\right), \quad \Delta = \frac{\max(|w|)}{2^{N-1}} \quad (2)$

这里 $N$ 为量化位数， $Δ\Delta$ 为量化尺度因子（步长），由权重 $w$ 的绝对最大值决定。先进的后训练量化方法，如AWQ（Lin等，2024），会针对每层调整缩放因子，以最小化校准数据集上的量化损失。本文中，我们用 $Q (f)$ 表示模型 $f$ 的量化版本。因此，实现遗忘方法并随后量化遗忘模型，可形式化写作：

$Q(U(ftarget,Dforget,Dretain))Q\big(U(f_{target}, D_{forget}, D_{retain})\big)$

3.2 以最小权重变化和效用保留实现遗忘

我们观察到，现有LLM遗忘方法通常使用非常小的学习率，以避免模型效用的灾难性下降。例如，在三个流行的LLM遗忘基准中：

MUSE基准（Shi等，2024b）试验的峰值学习率为 $\times 10^{-5}$ ；
TOFU基准（Maini等，2024）使用峰值学习率分别为 $\times 10^{-5}$ 、 $\times 10^{-6}$ 和 $\times 10^{-7}$ ；
RWKU基准（Jin等，2024）通过网格搜索探索峰值学习率范围从 $\times 10^{-8}$ 到 $\times 10^{-5}$ 。

相比之下，LLM的正常训练或微调通常使用更大的学习率，例如：

Llama3-8B（Dubey等，2024）使用峰值学习率 $\times 10^{-4}$ ；
Llama3-70B使用 $1.5 \times 10^{-4}$ （Dubey等，2024）；
GPT-3 6.7B使用 $1.2 \times 10^{-4}$ ；
GPT-3 13B使用 $\times 10^{-4}$ （Brown，2020）。

此外，保留数据集上的效用保持约束也是常用手段，以维持模型效用（Fan等，2024b；Shi等，2024b；Maini等，2024）。例如，在MUSE基准论文（Shi等，2024b）的表3中，带有效用约束的梯度上升导致模型性能下降18%，而不带约束的梯度上升即使使用小学习率，也导致效用几乎下降100%。

现有LLM遗忘方法通常结合上述两种策略，实现最小权重变动，从而“忘记”遗忘集的知识，同时保留效用。然而，在量化阶段，由于遗忘导致权重变化极小，原始模型 $f$ 和遗忘模型 $U (f)$ 的许多权重在量化后可能映射到相同的量化值。这种权重表示的重叠，使得量化后的遗忘模型与量化后的目标模型极为相似，导致通过量化实现的遗忘失败。

4 量化导致遗忘的灾难性失败

本节中，我们通过不同精度等级和多种量化技术进行实验，测试量化对遗忘模型的影响，尤其关注量化遗忘模型可能无意中部分恢复遗忘集知识的现象。我们的研究问题包括：

（Q1）量化在多大程度上影响LLM的遗忘性能？
（Q2）量化精度（如4位或8位）对遗忘有何影响？
（Q3）不同量化技术对遗忘有何影响？

以下是您提供内容的详细中文翻译，公式部分已用$符号标记：

4.1 实验设置

遗忘方法
本研究评估了六种针对大型语言模型（LLM）有效的遗忘方法，涵盖两大类主要的遗忘算法——梯度上升（Gradient Ascent，GA）和负偏好优化（Negative Preference Optimization，NPO）——以及两种效用保持策略。第一类，GA，通过对交叉熵损失应用梯度上升，降低模型在遗忘集上的正确预测概率（Jang 等，2023；Ilharco 等；Yao 等，2023）。第二类，NPO，将遗忘集视为负偏好数据，调整离线DPO目标以降低模型对该集合的预测概率（Zhang 等，2024；Rafailov 等，2024）。由于GA和NPO本身不关注效用保持，我们采用两种正则化策略来弥补这一不足（Liu 等，2022；Maini 等，2024；Zhang 等，2024）：保留集上的梯度下降（Gradient Descent on Retain set，GDR）和保留集上的KL散度最小化（KL Divergence Minimization on Retain set，KLR）。GDR策略在保留集上加入梯度下降目标以维护性能，KLR则在保留集输入的下一个token预测中，最小化遗忘模型与目标模型概率分布的KL散度。通过组合这两类方法与正则化策略，我们得到六种遗忘方法：GA、GA_GDR、GA_KLR、NPO、NPO_GDR和NPO_KLR。更多方法细节见附录B。其他遗忘方法的实验与讨论见附录J（Sheshadri 等，2024；Li 等，2024b）。

数据集
实验证明采用MUSE基准（Shi 等，2024b）评估语言模型的机器遗忘，使用两个数据集：NEWS和BOOKS。NEWS数据集（Li 等，2023b）包含近期BBC新闻，分为遗忘、保留和保留外集合。BOOKS数据集（Eldan & Russinovich，2023）包含哈利波特系列原著作为遗忘集，以及相关FanWiki资料作为保留集，用于遗忘后保持领域知识。详细信息见附录C.1。

评价指标
从数据所有者视角，期望遗忘模型满足：（1）无逐字记忆，（2）无知识记忆，（3）无隐私泄露；开发者则优先考虑（4）保留集上的效用保持。参照Shi 等（2024b），采用四个指标衡量这些方面：

M1. VerMem：评估逐字记忆，比较模型续写输出与真实token的ROUGE分数（ $VerbMem(f,Dforget)=Ex∈DforgetROUGE(f(x[1:l]),x[l+1:])\text{VerbMem}(f, D_{forget}) = \mathbb{E}_{x \in D_{forget}} \text{ROUGE}(f(x[1:l]), x[l+1:])$ ，其中ROUGE（Lin，2004）衡量机器输出与参考文本的相似度， $x [1 : l]$ 为输入的前 $l$ 个token， $x [l + 1 :]$ 为真实续写）。分数越低，遗忘效果越好。
M2. KnowMem on $D_{forget}$ ：评估知识记忆，通过回答定制的知识问答对计算ROUGE分数（ $KnowMem(f,Dforget)=E(q,a)∈DforgetROUGE(f(q),a)\text{KnowMem}(f, D_{forget}) = \mathbb{E}_{(q,a) \in D_{forget}} \text{ROUGE}(f(q), a)$ ），分数越低表示遗忘越彻底。
M3. PrivLeak：隐私保护指标，采用Min-K%方法（Shi 等，2024a），这是一种基于成员推断攻击（MIA）的技术，通过比较 $D_{forget}$ 和保留外集合 $D_{holdout}$ 之间的AUC-ROC评分。隐私泄露计算方式为：

$PrivLeak=AUC(funlearn)−AUC(fretrain)AUC(funlearn)\text{PrivLeak} = \frac{\text{AUC}(f_{unlearn}) - \text{AUC}(f_{retrain})}{\text{AUC}(f_{unlearn})}$

理想值接近零，偏离越大表示隐私保护越差。

M4. KnowMem on $D_{retain}$ ：效用保持指标，使用与M2相同的指标计算保留集上的知识记忆，分数越高表示效用保持越好。

前三个指标衡量遗忘效果，最后一个衡量效用。更多细节见附录C.2，实施细节见附录D.1。

重训练模型与目标模型
骨干模型及重训练模型 $f_{retrain}$ 与目标模型 $f_{target}$ 的获取流程详见附录C.3。

4.2 量化对LLM遗忘的影响

为回答问题Q1，我们对多种遗忘后的LLM应用4位量化（round-to-nearest，RTN），并与全精度模型比较。表1显示了主要结果。我们观察到大多数量化模型在遗忘指标（M1 VerMem、M2 KnowMem on $D_{forget}$ 、M3 PrivLeak）上的表现下降，但在效用指标（M4 KnowMem on $D_{retain}$ ）上有所提升，更接近未遗忘的目标模型 $f_{target}$ 的表现。这表明4位量化可能通过无意中保留部分遗忘集知识，而对遗忘效果产生负面影响，同时保持了模型效用。第五节将对此现象的原因进行解释。GA方法在4位量化后似乎实现了绝对遗忘，但由于缺少效用约束，导致模型效用完全丧失，结果具有误导性。值得注意的是，带效用约束的遗忘方法在全精度下平均保留了21%的遗忘知识，4位量化后这一比例显著升至83%。关于另一个LLM遗忘基准RWKU（Jin 等，2024）的更多实验结果见附录F。

4.3 量化精度对遗忘的影响

为回答问题Q2，我们对遗忘模型进行了8位量化测试。由于2位量化与全精度模型性能差距过大（Zhu 等，2023），违背了本节3.2中效用保持的需求，故未纳入测试。结果同样列于表1。我们发现8位量化模型与全精度模型表现相近，因为8位对权重变化更敏感。这表明当量化精度降至4位时，量化会显著影响遗忘效果，甚至可能导致灾难性失败。总体来看，低精度量化模型（如4位）更易恢复遗忘集知识，凸显了通过量化实现遗忘存在严重风险。更多关于RWKU基准上的遗忘失败分析见附录E和F。

4.4 不同量化技术对遗忘的影响

为回答问题Q3，我们测试了两种先进的4位量化方法：GPTQ（Frantar 等，2023）和AWQ（Lin 等，2024）。这两者区别于RTN，在量化时利用校准数据集（通常包含维基百科等通用语料）来最小化量化误差。我们在与4.2节相同的实验设置下，在NEWS数据集上进行了实验，结果见表2。结果显示GPTQ和AWQ表现与RTN相似。尽管尝试有效调整参数，但由于校准数据集为通用文本而非遗忘集专门领域，GPTQ和AWQ仍可能保留本应遗忘的知识。这凸显了我们发现的问题的普遍性：无论量化方法是否使用校准集，量化后的遗忘模型依然面临通过量化导致遗忘失败的问题。

5 量化导致遗忘失败的解释

第4节的观察表明，无论采用何种量化技术，4位量化模型相较于全精度模型在遗忘性能上表现较差；而8位量化模型的性能指标接近全精度模型。本节旨在通过对量化机制的理论分析解释这一现象，选用int-4和int-8为例说明。

根据公式(2)的定义，权重 $w$ 位于量化区间 $I_i$ 内，被映射为低精度量化索引：

$\mathrm{Round}\left(\frac{w}{\Delta}\right)$

索引 $i$ 的取值范围为 $2^{N-1}, 2^{N-1} - 1]$ ，对应量化值：

$qi=iΔq_i = i \Delta$

区间 $I_i$ 定义为：

$Ii=[(i−12)Δ,(i+12)Δ)(3)I_i = \left[ \left(i - \frac{1}{2}\right) \Delta, \left(i + \frac{1}{2}\right) \Delta \right) \quad (3)$

其中 $Δ\Delta$ 为量化尺度因子，决定每个区间大小。例如，

$Δint4=max⁡(∣w∣)24−1=max⁡(∣w∣)8,Δint8=max⁡(∣w∣)28−1=max⁡(∣w∣)128\Delta_{int4} = \frac{\max(|w|)}{2^{4-1}} = \frac{\max(|w|)}{8}, \quad \Delta_{int8} = \frac{\max(|w|)}{2^{8-1}} = \frac{\max(|w|)}{128}$

当 $max⁡∣w∣=200\max |w| = 200$ 时（见图2），int-4量化中，所有权重属于区间 $[- 12.5, 12.5)$ ，均映射为量化值 $q_0 = 0$ 。为了区分原始模型 $f$ 和遗忘模型 $f_{unlearn}$ 的量化权重，遗忘模型权重变化必须超过量化步长 $Δ\Delta$ 。正如3.2节所述，保持效用的有效遗忘方法通常导致极小的权重变化，因此 $f_{target}$ 和 $f_{unlearn}$ 高度相似，即：

$Q(funlearn)≈Q(ftarget)Q(f_{unlearn}) \approx Q(f_{target})$

我们也知道，直接对原始模型应用量化 $Q(f_{target})$ 通常能保留模型大量知识（Liu 等，2024b；Egashira 等，2024；Hong 等，2024），因为量化是在保持模型结构和功能完整性的前提下，对权重的近似。因此， $Q(f_{unlearn})$ 与 $Q(f_{target})$ 的相似性意味着量化后的遗忘模型可能无意中保留了遗忘集知识，尽管全精度遗忘模型已成功消除这些信息。

此外，int-4和int-8表现差异显著，主要归因于int-4的量化区间 $Δint4\Delta_{int4}$ 远大于int-8的 $Δint8\Delta_{int8}$ 。较大的区间尺寸意味着权重的微小变化不易引起4位量化值的变化，而8位量化只需约 $0.78125$ 的权重变化即可改变量化值。图2示意，只有当权重变化超过 $12.5$ 时，int-4量化模型才会体现差异；而int-8只需较小的变化即可反映权重调整。因此，int-4量化模型相比int-8更易在遗忘任务中失败。

6 量化鲁棒的遗忘

前面提到的灾难性失败凸显了需要有效的方法来防止知识恢复，同时保持模型效用。因此，我们基于理论分析提出了一套针对性的策略。

6.1 提出的方法框架

我们期望理想的遗忘方法能实现三个关键目标：（i）有效遗忘遗忘集中的知识；（ii）保持模型在保留集上的效用；（iii）防止通过量化导致的遗忘知识恢复。根据第5节的理论分析，现有遗忘方法未能防止知识恢复的核心问题在于：有效遗忘通常寻求最小的权重变化以保持模型效用，这造成了目标（ii）和（iii）之间的矛盾。

解决该矛盾的一种直观思路是同时提高 $Lforget\mathcal{L}_{forget}$ 和 $Lretain\mathcal{L}_{retain}$ 的学习率。直观上，提高 $Lforget\mathcal{L}_{forget}$ 的学习率有助于实现目标（i）和（iii），而 $Lretain\mathcal{L}_{retain}$ 在保留集上的效用约束则帮助模型保持该数据集上的性能，从而满足目标（ii）。然而，使用过大的学习率对模型进行全面微调，可能因遗忘梯度过于激进而导致过度调整，进而整体效用下降。此外，对保留集应用大学习率可能使模型偏向该数据，导致其行为倾斜，进而降低在保留集之外任务上的表现，正如附录I所示。

另一方面，有研究表明大型语言模型的知识可能存储在特定神经元或权重中（Liu 等，2024a；Dai 等，2022），这意味着遗忘特定知识可以通过选择性地更新模型权重实现，从而最大限度减少对模型效用的影响。基于此，我们借鉴先前工作中的思路（Fan 等，2024b；Meng 等，2022；Wu 等，2023；Wei 等，2024），通过计算遗忘集上遗忘损失 $Lforget\mathcal{L}_{forget}$ 对模型权重的梯度来构建权重显著性图，即：

$∇wiLforget(θ;Dforget)\nabla_{w_i} \mathcal{L}_{forget}(\theta; D_{forget})$

一般来说，梯度的绝对值 $∣∇wiLforget(θ;Dforget)∣|\nabla_{w_i} \mathcal{L}_{forget}(\theta; D_{forget})|$ 越大，表示权重 $w_i$ 与待遗忘知识的相关性越强。因此，我们选取梯度较大的权重作为显著权重，仅更新这些显著权重，以尽量减少使用大学习率在保留集上全面微调可能带来的偏差。但在当前大型语言模型时代，为每个权重设计掩码不可行，因此我们选择构建模块级显著性掩码。

具体而言，我们将遗忘前模型参数 $θo\theta_o$ 分解为两个部分：将在遗忘过程中更新的显著模块和保持不变的完整模块。以基于Transformer的LLM为例，模型由多层组成，每层包含多个模块，如多头注意力和前馈网络等。对于第 $i$ 个模块，令 $θi\theta_i$ 表示该模块相关的参数（如某个注意力头或前馈子层的权重）。我们通过汇总该模块中所有参数的遗忘损失梯度来计算模块显著性分数 $s_i$ ：

$si=∥∇θiLforget(θ;Dforget)∣θ=θo∥(4)s_i = \left\| \nabla_{\theta_i} \mathcal{L}_{forget}(\theta; D_{forget}) \big|_{\theta=\theta_o} \right\| \quad (4)$

其中 $∥⋅∥\|\cdot\|$ 表示适当的范数（例如矩阵的Frobenius范数），用于汇总模块 $i$ 的梯度大小。

然后，我们对显著性分数 $s_i$ 应用硬阈值操作，得到模块级显著性掩码 $m_M$ ：

$si≥γ0,否则(5)m_M[i] = \begin{cases} 1, & \text{如果 } s_i \geq \gamma \\ 0, & \text{否则} \end{cases} \quad (5)$

其中阈值 $γ>0\gamma > 0$ 。因此，掩码 $m_M[i] = 1$ 的模块被视为显著模块，将参与更新；掩码 $m_M[i] = 0$ 的模块保持不变。

基于模块级显著性掩码 $m_M$ ，遗忘后模型参数 $θu\theta_u$ 表示为：

$θu=θo+mM⊙Δθ(6)\theta_u = \theta_o + m_M \odot \Delta \theta \quad (6)$

其中 $Δθ\Delta \theta$ 为遗忘过程中计算的参数更新， $mM⊙Δθm_M \odot \Delta \theta$ 表示掩码 $m_M$ 与更新 $Δθ\Delta \theta$ 的模块级乘积。掩码 $m_M[i]$ 应用于第 $i$ 模块所有相关参数。这意味着在遗忘时，我们只更新显著模块，保持网络其余部分不变。

通过聚焦模块级显著性，我们将遗忘过程导向对遗忘集 $D_{forget}$ 影响最大的模块，减少了使用大学习率对保留集全面微调可能导致的偏差风险。

我们将该方法命名为基于显著性的高学习率遗忘（Saliency-Based Unlearning with a Large Learning Rate，SURE）。

6.2 实验

实验设置
为了全面评估我们的方法，参照（Jin 等，2024），我们不仅测试模型在保留集上的效用，还评估其多项能力，具体包括：

通用能力（Gen）：使用MMLU（Hendrycks 等，2021），该数据集包含来自多个知识领域的多项选择题。我们报告基于答案困惑度的5-shot准确率。
真实性（Tru）：为评估遗忘后模型是否变得不诚实，我们采用TruthfulQA的MC1任务（Lin 等，2022），报告6-shot准确率。
事实性（Fac）：因遗忘会抹去原有知识，我们使用TriviaQA（Joshi 等，2017）评估事实性，报告6-shot的F1分数。
流畅性（Flu）：为衡量生成质量，采用AlpacaEval（Li 等，2023a）中的指令，报告双字和三字词组熵的加权平均值（Meng 等，2022；Zhang 等，2018）。

根据我们提出的三大目标，我们希望通过引入SURE方法，在全精度模型中，遗忘效果和模型效用能够与不使用SURE的方法相当；此外，SURE应有助于提升量化后遗忘模型的遗忘效果。因此，我们在带正则化的各种遗忘方法中融入SURE，并与原始遗忘方法进行比较。原始遗忘方法的实现细节参见附录D.1。针对每种方法，我们分别评估全精度和量化版本的遗忘性能及模型效用。

我们对学习率在 $\times 10^{-5}, 1 \times 10^{-4}, 2 \times 10^{-4}]$ 区间内进行了网格搜索，正则化权重 $α\alpha$ 在 $[1, 20, 100, 300, 400]$ 中调节，显著性掩码阈值 $γ\gamma$ 选取为显著性分数 $s$ 的 $90$ 、 $95$ 、 $99$ 百分位点，即 $Percentile(s,90)\text{Percentile}(s, 90)$ 等，其中 $Percentile(⋅)\text{Percentile}(\cdot)$ 表示对显著性分数 $s$ 的指定分位数。其他设置同附录D.1。更多实现细节见附录D.2。

遗忘结果
我们在BOOKS数据集上报告了SURE的结果，详见表3，NEWS数据集的附加结果见附录G。表3显示：（i）对于量化模型，加入SURE后，遗忘效果显著优于未使用SURE的原始方法；（ii）对于全精度模型，将SURE融入各类遗忘方法，通常能够实现与原始方法相当的遗忘效果和模型效用。尽管对于原始遗忘方法GA_GDR，我们的SURE在事实性和真实性指标上出现了效用下降，但在通用能力和流畅性指标上依然表现良好。这验证了大学习率在保留集上可能引入偏差的担忧，并凸显在保持模型效用与防止通过量化恢复知识之间的权衡。关于超参数分析和消融实验的更多结果见附录H和附录I。

7 结论

本文指出了一个关键问题：对已经完成遗忘的模型进行量化，可能导致“遗忘”的知识被恢复。我们通过多种量化技术和不同精度等级进行了详尽实验，系统评估了这一现象。此外，我们给出了该问题发生的理论解释。基于此，我们提出了一种基于显著性、使用大学习率的遗忘策略，旨在防止通过量化恢复知识，同时维持模型效用。我们的研究揭示了当前大型语言模型遗忘方法的显著缺陷，并指出现有基准中被忽视的方面。我们强烈呼吁开发更鲁棒的方法，确保真正的遗忘效果且不损失模型效用。

如需进一步细化内容或补充说明，欢迎随时告知。

查看全文

http://www.dtcms.com/a/575249.html