当前位置：首页 > news >正文

【大模型原理与技术-毛玉仁】第五章模型编辑

news 2025/8/26 21:41:12

5 模型编辑

5.1 模型编辑简介

大语言模型有时会产生一些不符合人们期望的结果，如偏见、毒性和知识错误等。

偏见是指模型生成的内容中包含刻板印象和社会偏见等不公正的观点，毒性是指模型生成的内容中包含有害成分，而知识错误则是指模型提供的信息与事实不符。

然而，重新预训练存在成本过高等缺陷，微调存在过拟合、灾难性遗忘等缺陷。

为规避重新预训练和微调方法的缺点，模型编辑应运而生。其旨在精准、高效地修正大语言模型中的特定知识点，能够满足大语言模型对特定知识点进行更新的需求。

模型编辑思想

模型编辑定义

模型编辑挑战

模型编辑性质

常用数据集

在模型编辑的相关研究中，使用最广泛的是由Omer Levy 等人提出的zsRE数据集。

zsRE是一个问答任务的数据集，通过众包模板问题来评估模型对于特定关系（如实体间的“出生地”或“职业”等联系）的编辑能力。

在模型编辑中，zsRE数据集用于检查模型能否准确识别文本中的关系，以及能否根据新输入更新相关知识，从而评估模型编辑方法的准确性。

5.2 模型编辑经典方法

如果将大语言模型比作冒险游戏中的勇者，那么模型编辑可被看作一种满足“升级”需求的方法，可以分别从内外两个角度来考虑。

外部拓展法：通过设计特定的训练程序，使模型在保持原有知识的同时学习新信息。

内部修改法：通过调整模型内部特定层或神经元，来实现对模型输出的精确控制。

外部拓展法

外部拓展法包括知识缓存法和附加参数法。

内部修改法

内部修改法包括元学习法和定位编辑法。

方法比较

5.3 附加参数法：T-Patcher

补丁的位置

补丁的形式

补丁的实现

5.4 定位编辑法：ROME

知识存储位置

知识存储机制

精准知识编辑

5.5 模型编辑应用

精准模型更新

保护被遗忘权

由于大语言模型在训练和处理过程中也会记忆和使用个人信息，所以同样受到被遗忘权的法律约束。

机器遗忘

提升模型安全

http://www.dtcms.com/a/237812.html

相关文章：

并行硬件环境及并行编程

Shell 命令及运行原理 + 权限的概念（7）

手拉手处理RuoYi脚手架常见文问题

【Qlib】Windows上Qlib安装与初步使用

量子电路设计：以 Qiskit 为例

PicSharp(图片压缩工具) v1.1.6

分享5个免费5个在线工具网站：Docsmall、UIED Tool在线工具箱、草料二维码、图片在线压缩、表情符号

python的numpy的MKL加速

日志收集工具-Filebeat

图卷积网络：从理论到实践

22、模板特例化

triton学习笔记6: Fused Attention

轻创业技术方案：基于格行双目摄像头的代理系统设计！低成本创业项目有哪些？2025轻资产创业项目排行榜前十名！0成本创业项目推荐！格行代理项目靠谱吗？

在 Java 中!（逻辑非）和 ||（逻辑或）的优先级关系

Java 并发编程系列（上篇）：多线程深入解析

C++与Python编程体验的多维对比：从语法哲学到工程实践

MATLAB-电偶极子所产出的电磁场仿真

【HarmonyOS5】UIAbility组件生命周期详解：从创建到销毁的全景解析

Linux -- 进程信号

LVDS的几个关键电压概念

libiec61850 mms协议异步模式

Android实现点击Notification通知栏，跳转指定activity页面

轮廓填充空洞删除孤立

记录下three.js学习过程中不理解问题①

Springboot项目中minio的使用场景、使用过程（仅供参考）

python调用其它程序 os.system os.subprocess

深入浅出Docker

7.2.2_折半查找

SQL字符串截取函数全解析：LEFT、RIGHT、SUBSTRING 实战指南

一个简单的德劳内三角剖分实现