当前位置：首页 > news >正文

【大模型基础_毛玉仁】5.5 模型编辑应用

news 2025/8/9 17:53:11

5.5 模型编辑应用

大语言模型面临更新成本高、隐私保护难、安全风险大等问题。模型编辑技术：

通过细粒度修改预训练模型，避免从头训练，降低更新成本；
能够精准修改特定事实，保护隐私信息；
还能精细控制编辑过程，及时识别并消除安全隐患，提升模型的安全性和可靠性。

5.5.1 精准模型更新

模型编辑技术是一种通过直接修改或调整模型参数来更新模型知识或行为的方法。相比传统的微调方法，它减少了对大量数据和计算资源的依赖，同时避免了遗忘原有知识的风险。这种方法具有高效、精准的特点，能够快速修复模型的特定问题或添加新知识，特别适用于大语言模型的即时更新场景。

例如，2023年12月，Gemini Pro 询问“你是谁”时，Gemini Pro 会回答“我是百度文心大模型”。仅仅一天之后，Gemini Pro 便不再回答类似的内容。考虑到重新训练模型的成本和时间不可接受，推测 Google 使用了模型编辑技术进行了紧急修复，快速纠正了模型的回答。这种技术的外科手术般的精准性使其成为应对模型即时更新需求的理想选择。

5.5.2 保护被遗忘权

被遗忘权（RTBF，Right to be forgotten）是个人有权要求删除互联网上的私人信息的权利，旨在平衡隐私与信息自由流通。欧盟法院在冈萨雷斯诉谷歌案中确立了这一权利，并纳入《通用数据保护条例》。大语言模型因记忆和使用个人信息而受此约束，需采取技术措施删除或修改信息。

大语言模型可能泄露隐私，如生成文本泄露身份信息、攻击者分析输出推断敏感信息或模型参数遭不当访问。现有隐私保护方法虽能减少泄露，但仍存在漏洞。例如，Nasr等人发现重复输入特定词汇可能导致模型泄露隐私。为此，模型编辑技术如DPEN结合隐私神经元检测器和编辑器，定位并消除与隐私相关的参数，实现机器遗忘，有效保护隐私。