当前位置：首页 > news >正文

大模型知识编辑技术——李宏毅2025《机器学习》第十讲

news 2025/11/10 7:43:33

本讲聚焦模型编辑（Model Editing）技术，即精准地修改大语言模型（LLM）中的单一知识点，而不影响模型整体能力。这与传统的"微调"有本质区别，微调旨在让模型学习新技能（如编程、推理），而模型编辑的目标是植入、修改或删除特定事实。

一、为什么需要模型编辑？（vs. 微调）

微调灾难：用单条数据（如"全世界最帅的人是李宏毅"）微调会导致灾难性遗忘或过度泛化——模型可能对所有问题都回答"李宏毅"。
编辑的必要性：更新预训练中过时的知识、修正错误信息，甚至为特定目的植入"虚构知识"。

二、模型编辑的三大评判标准

成功标准：改得准、能泛化、不乱改，三者缺一不可。

1、可靠性（Reliability）

核心目标必须达成：对编辑的问题本身，模型必须输出新答案。
例：问"全世界最帅的人是谁？" → 必须答"李宏毅"。

2、泛化性（Generalization）

编辑效果应推广到语义相同但表述不同的问题。三层泛化（由易到难）：
- 同义转述（Paraphrase）："谁是全世界最帅的人？" → "李宏毅"
- 反向问题（Reverse）："李宏毅是谁？" → "全世界最帅的人"
- 可移植性（Portability）："全世界最帅的人在哪里工作？" → 正确关联到李宏毅的工作单位
当前技术局限：多数方法仅能实现同义转述泛化。

3、局部性（Locality）

编辑必须是"局部"的，不能干扰无关知识。
例：植入"最帅的人"后，问"谷歌创始人是谁？" → 仍应答"拉里佩奇"，不能答"李宏毅"。

三、模型编辑的两大技术路径

模型编辑技术
├── 1、不动参数（情境编辑）
│   └── IKE：通过少样本演示教会模型使用新信息
│
└── 2、改变参数（参数手术）├── 2.1人类主刀│   └── ROME：定位FFN层 + 秩为一矩阵更新│└── 2.2 AI主刀（超网络）├── MEMIT：利用梯度低秩性└── MEND：显式分解梯度矩阵

路径1：不动参数——情境知识编辑（In-Context Editing）

核心思想：不改变模型权重，而是将新知识作为上下文（Context）输入。
关键问题：强大模型会"固执己见"，忽略上下文中的新信息。
解决方案：IKE方法
In-context Knowledge Editing（论文：arxiv/abs/2305.12740）
原理：通过少样本提示（Few-shot Prompt）向模型"演示"如何遵守新规则，包含三类范例：
- 可靠性范例：被和谐了
- 泛化性范例：【新信息：爱因斯坦是数学家】问：爱因斯坦擅长什么？答：数学。
- 局部性范例：【新信息：梅西打网球】问：谷歌的创始人是谁？答：拉里佩奇。（证明新信息不影响旧知识）
测试【新信息：日本首都是巴黎】
效果：看过示范后，模型会"听话地"按新信息回答，甚至接受虚假知识（如"日本的的首都是哪里？巴黎"）。

路径2：改变参数——开颅手术式编辑

方法A：由人类决定如何编辑修改参数——ROME算法

比喻：如《三体》中的"思想钢印"，直接操作神经元植入不可动摇的信念。
算法全称：Rank-One Model Editing（论文：arxiv/abs/2202.05262）
两步流程：
- 1）定位（Locate）：找到存储目标知识的具体参数位置。研究发现，事实性知识主要存储在Transformer的FFN（前馈网络）层中，可通过探测技术锁定特定层。
- 2）编辑（Edit）：直接修改该FFN层的权重矩阵。
核心优势：推导出封闭形式解（Closed-form Solution），无需迭代梯度下降，通过一次秩为一（Rank-One）的矩阵操作完成更新，效率极高。

方法B：AI学习如何编辑参数——超网络（Hypernetwork）

构想：训练一个编辑器AI（Hypernetwork），自动为待编辑模型生成参数修改量Δθ。
编辑后的模型 = 原始模型 + Δθ
核心挑战：70亿参数的模型，Δθ也是70亿维，让神经网络输出如此高维向量不可行。
突破：MEMIT/MEND的梯度低秩秘密
关键发现：对单数据点的梯度矩阵天然低秩，常是秩为一矩阵，可分解为两个小向量u和v的外积（G = u × vᵀ）。
降维打击：超网络只需学习从"编辑指令"到**两个小向量(u, v)**的映射，而非整个梯度矩阵。
MEND算法（论文：arxiv/abs/2110.11309）：显式利用这一特性，使AI编辑AI成为可行。

关键论文与资源

IKE：In-context Knowledge Editing (2023)
ROME：Rank-One Model Editing (2022)
MEMIT/MEND：Mass-Editing Memory in Transformer (2021) / Model Editor Networks (2021)
综述资源：KnowEdit项目（zjunlp.github.io/project/KnowEdit/）

http://www.dtcms.com/a/588960.html

相关文章：

JAVA中next和nextLine的区别

东莞设计网站企业淘宝客建站需要多少钱

ROS2 Humble 笔记（十二）launch 文件与 namespace 启动多个节点

nginx源码安装以及平滑升级

[特殊字符] Spring AOP 注解方式详解

C++——二叉搜索树

青少年机器人技术等级考试理论综合试卷（一级）2020年9月

Redis_9_Set

计算机网络培训课程大庆网站建设优化

网站正在建设中永久wordpress 前台文章

Electron 桌面应用开发入门指南：从零开始打造 Hello World

深入解析手机快充技术原理与实现

JavaScript 数组方法大全

电子商务网站建设与管理的实验报告个人怎样免费建网站

STM32F103学习笔记-16-RCC(第3节)-使用HSE配置系统时钟并使用MCO输出监控系统时钟

LeRobot 入门教程（十五）从Hub加载环境

HTML DOM 总结

社群经济下开源链动2+1模式AI智能名片S2B2C商城小程序的信任重构机制研究

Git 命令大全：从基础到高级操作

Git_Rebase

【深度学习|学习笔记】异常检测概论 — 从经典算法到深度学习（含实用 Python 示例）

如何建立一个视频网站html5 手机网站页面实例

FlutterPlugin接口实现与插件架构设计

图漾GM461-E1相机专栏

Flutter与鸿蒙原生MethodChannel通信机制深度解析

Navigation2 行为树架构源码级分析与设计原理

基于时频域霍夫变换的汽车雷达互干扰抑制——论文阅读

贵阳网站建设建站系统怎么找网站是由什么建的

一本通网站1128题：图像模糊处理

DrissionPage遇到iframe