大语言模型概述
目录
一、大语言模型的基础
1、 定义
2、发展过程
3、构建流程
4、大语言模型使用的基础架构
(1)Transformer模型
(2)生成式预训练语言模型GPT
(3)LLAMa模型
5、注意力机制优化
(1)稀疏注意力机制
(2)FlashAttention--从硬件角度
二、语言模型的训练
1、数据处理
(1)质量过滤
(2)冗余去除
(3)隐私消除
(4)词元切分
(5)数据影响分析
2、分布式训练
(1)为什么要分布式训练?
(2)影响训练速度的关键因素
(3)分布式训练的三大瓶颈
(4)分布式训练的常用并行策略
(5)分布式训练的集群架构
三、有监督微调
1、提示学习与环境学习
(1)提示学习
(2)语境学习【上下文学习】
2、高效模型微调
(1)LoRA(Low-Rank Adaptation)----典型方法
(2)Prefix Tuning
(3)Adapter
3、指令数据构建
(1)手动构建指令
(2)自动生成指令【Self - instruct】
(3)开源指令数据集
四、强化学习
1、强化学习概述
(1)智能体与环境
(2)状态、行为与奖励:
(3)策略与价值
3、强化学习在大语言模型上的重要作用
4、基于人类反馈的机制(RLHF)
(1)第一步:收集描述性数据,并训练一个监督学习模型
(2)第二步:收集比较性数据,并训练一个奖励模型
(3)第三步:用PPO强化学习算法对奖励模型进行优化
5、奖励模型
6、近端策略优化(PPO)
五、LLM的应用
1、推理规划
(1)方法--思维链提示
(2)方法-由少到多提示
2、综合应用框架
(1)典型框架-LangChain
3、智能代理 AI Agent
(1)智能代理的组成
(2)实例
4、多模态大模型
(1)min-gpt4
5、大语言模型推理优化
(1)优化方向:
(2)FastServe 框架
六、LLM的评估
1、大语言模型评估体系
(1)知识与能力
(2)伦理与安全
(3)垂直领域评估
2、大语言模型评估评估指标
一、大语言模型的基础
1、 定义
大规模语言模型(LargeLanguageModebs,LLM),也称大规模语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标注文本进行训练。
-
核心特点:
-
参数量巨大(Billion / Trillion 级别)
-
使用自监督学习:从大量无标注文本中通过预测下一个词来学习语言规律
-
具备迁移能力:在经过大规模预训练后,可以通过少量样本或提示(prompt)适配到多种任务
-
-
典型代表:GPT 系列、PaLM、LLaMA、Claude、Gemini 等
缩放法则是 LLM 性能提升的经验公式,核心观点是:当你增加模型参数量、训练数据规模和训练时间时,模型性能会持续提升,并且遵循一定的数学规律。
2、发展过程
-
早期(2000s-2017)
-
RNN / LSTM / GRU → 只能处理较短上下文,难以并行计算。
-
Word2Vec / GloVe → 静态词向量,没有上下文动态变化。
-
-
Transformer 时代(2017)
-
论文《Attention is All You Need》提出 Transformer 架构
-
多头自注意力(Multi-Head Self-Attention)实现长程依赖建模 + 高并行度
-
-
预训练-微调范式(2018-2020)
-
GPT(OpenAI)提出单向生成式预训练 + 微调(Fine-tuning)
-
BERT(Google)提出双向编码器,用于理解任务
-
-
超大规模模型(2020-至今)
-
GPT-3(175B 参数)引爆少样本学习(few-shot learning)
-
LLaMA、PaLM、Claude、Gemini 等开源与闭源路线并行
-
多模态 LLM(文本 + 图像 + 音频 + 视频)兴起
-
3、构建流程
数据收集与预处理-->模型架构设计-->预训练(Pretraining)--->微调(Fine-tuning)--->对齐(Alignment)
4、大语言模型使用的基础架构
(1)Transformer模型
《Attention is all you Need》-transformer模型-CSDN博客 --可以看之前这个博文
(2)生成式预训练语言模型GPT
OpenAI 公司在2018年提出的生成式预训练语言模型(GenerativePre-training,GPT)
GPT 采用 Transformer 中的 “解码器(Decoder)” 部分作为核心结构,依赖 “自注意力机制(Self-Attention)” 捕捉文本中长距离的语义关联,相比传统的循环神经网络(RNN),能更高效地处理长文本。
(3)LLAMa模型
LLaMA(Large Language Model Meta AI)是 Meta(原 Facebook)推出的一系列开源大语言模型,目标是以更小的模型参数量,达到甚至接近 GPT-3 等超大模型的性能,同时大幅降低训练与部署成本。
架构优化(基于 Transformer 改进)
-
Pre-Norm 架构:在残差连接之前进行 LayerNorm,训练更稳定
-
SwiGLU 激活函数:替代传统 GELU,提升表达能力
-
Rotary Position Embedding(RoPE):替代绝对位置编码,提升长文本建模能力
-
分组查询注意力(Grouped-Query Attention, GQA):在 LLaMA 2 引入,降低显存占用和推理延迟
-
更大的上下文窗口:LLaMA 2 提供了 4K token 的上下文长度,便于长文生成
5、注意力机制优化
(1)稀疏注意力机制
不是每个 token 都需要关注序列中的所有其他 token,可以让注意力矩阵变得稀疏化,仅计算部分重要位置的相关性,从而降低复杂度。
(2)FlashAttention--从硬件角度
在不牺牲精度的前提下,减少显存占用和内存访问开销,让注意力计算更快、更省内存。
将注意力计算拆成小块(tiles),每块能完全放进 GPU 的高速缓存(SRAM / shared memory)中,把 QKᵀ、softmax、与 V 相乘等多个步骤合并到一个 GPU 内核函数里。
二、语言模型的训练
1、数据处理
(1)质量过滤
在训练前剔除低质量、无关或噪声数据,确保模型学习的是高质量语料。
(2)冗余去除
避免同一文本重复出现,导致模型过拟合或偏向高频样本。
(3)隐私消除
防止模型记忆或暴露个人敏感信息。
-
隐私数据发现:用正则匹配、命名实体识别(NER)等技术检测电话号码、邮箱、身份证号、地址等信息。
-
隐私数据消除:用掩码(masking)或替换(如
[REDACTED]
)的方式删除或替换敏感信息。
(4)词元切分
将原始文本切分成模型可处理的基本单元(token)
-
子词单元化(Subword Tokenization):将罕见词分成子词以减少词表规模(如 BPE、WordPiece)。
-
字节对编码(Byte Pair Encoding, BPE):合并高频字符对形成子词单元。
-
WordPiece:类似 BPE,但合并策略不同,常用于 BERT。
(5)数据影响分析
在大模型训练中,数据对最终模型效果的影响主要取决三大核心要素:规模、质量、多样性
数据量越大,模型的知识覆盖面越广,语言理解与生成能力更全面。
高质量数据能显著提升模型的语言流畅度、事实准确率与任务适配性。
多样性包括主题多样性(涵盖更多领域)、语言多样性(支持多语言)、形式多样性(代码、对话、表格等)。高多样性能提升模型的泛化能力,减少过拟合于特定领域或风格。
2、分布式训练
(1)为什么要分布式训练?
模型参数规模越来越大(例如 GPT-3 1750 亿参数)。
单设备算力和显存无法满足训练需求。
大规模训练数据量也超出了单机处理能力。
分布式训练通过将任务分解到多个设备(CPU/GPU/TPU/NPU等)并行计算,加快训练速度。
(2)影响训练速度的关键因素
分布式训练的总体目标就是提升总的训练速度,减少模型训练的总体时间。总训练速度可以用如下公式简略估计:
总训练速度 ∝ 单设备计算速度 x 计算设备总量× 多设备加速比
(3)分布式训练的三大瓶颈
-
计算强(Compute Bound)
硬件计算能力 < 模型计算需求。 -
显存强(Memory Bound)
单卡显存无法存下完整模型参数(如 1750 亿参数 FP16 存储需 700GB)。 -
通信强(Communication Bound)
多卡之间频繁的梯度/参数同步受带宽和延迟限制(如一次迭代需传输 89.6 TB 数据,带宽不足会严重拖慢速度)。
(4)分布式训练的常用并行策略
-
数据并行(Data Parallel, DP):每个设备保存完整模型副本,数据集按批次划分到不同设备并行计算。每个批次结束后同步梯度。优点:实现简单;缺点:梯度同步开销大。
-
模型并行(Model Parallel, MP)
-
模型参数按层(Pipeline Parallel, PP)或按算子/张量(Tensor Parallel, TP)划分到不同设备。
-
PP(流水线并行):模型不同层放在不同设备,数据像流水线一样依次经过。
-
TP(张量并行):将同一层的参数切分到多个设备并行计算。
-
对于嵌入表示算子,,可以按照词维度切分,每个计算设备只存储部分词向量,然后通过汇总各个设备上的部分词向量,从而得到完整词向量。
分类网络最后一层一般会选用Softmax 和交叉熵算子来计算交叉熵损失。针对这一类算子,可以按照类别维度切分,同时通过中间结果通信,得到最终的全局的交叉熵损失。【计算softmax值--->得到softmax计算结果后同时对标签按类别切分,每个设备得到部分损失----->最后进行一次通信得到所有类别的损失】
矩阵乘的张量并行要充分利用矩阵的分块乘法原理。
-
-
优点:解决显存不足问题;缺点:通信依赖更高
-
-
混合并行(Hybrid Parallel):同时使用 DP + PP + TP,根据硬件和模型特点灵活组合。
- 零冗余优化器:DeepSpeed 提供的一种分布式训练优化技术,在传统数据并行训练中,每个 GPU 持有完整的模型参数、梯度和优化器状态副本,导致显存冗余。ZeRO 的核心思想是将模型参数、梯度和优化器状态分片到多个设备上,消除冗余存储,仅在需要时通过通信收集所需数据。
(5)分布式训练的集群架构
集群架构通常包含物理硬件层、逻辑通信层和软件支撑层,三者协同实现高效的分布式训练。
典型的高性能计算集群的架构组成
物理硬件架构:计算资源由多个计算节点组成,每个节点是一个独立的服务器,负责实际的模型计算(如前向传播、反向传播)。
逻辑通信架构:逻辑架构定义了计算节点间的通信模式,即 “如何分工计算和交换数据”,核心是解决 “参数同步” 问题。
- 参数服务器(Parameter Server, PS)架构:有两种服务器角色:训练服务器和参数服务器。参数服务器需要提供充足内存资源和通信资源,训练服务器需要提供大量的计算资源。
参数服务器架构分布式训练过程可以细分为同步训练和异步训练两种模式:
同步训练:训练服务器在完成一个小批次的训练后,将梯度推送给参数服务器。参数服务器在接收到所有训练服务器的梯度后,进行梯度聚合和参数更新。
异步训练:训练服务器在完成一个小批次的训练后,将梯度推送给参数服务器。但是参数服务器不再等待接收所有训练服务器的梯度,而是直接基于已接收到的梯度进行参数更新。
环形全归约(Ring All - Reduce)架构:所有节点地位平等(无中心节点),通过 “环形拓扑” 完成梯度聚合。
混合架构(Hybrid):结合 PS 架构和全归约架构,适用超大规模集群(如数千节点)。
三、有监督微调
Supervised Fine-Tuning,SFT,有监督微调是大语言模型(LLM)从“会说”到“会按人类要求说”的关键过程。它是使用有人工标注的特定任务数据,对预训练模型进行再训练,使其输出符合特定任务需求。
经过海量数据预训练后的语言模型虽然具备了大量的“知识“,但是由于其训练时的目标仅是进行下一个词的预测,此时的模型还不能够理解并遵循人类自然语言形式的指令。为了能够使得模型具有理解并响应人类指合的能力,还需要使用指令数据对其进行微调。
1、提示学习与环境学习
(1)提示学习
不同于传统的监督学习,它直接利用了在大量原始文布上进行预训练的语言模型,并通过定义一个新的提示函数,使得该模型能够执行小样存甚至零样存学习以适应仅有少量标注或没有标注
数据的新场景。【通过在输入中添加自然语言提示(Prompt)来引导模型生成期望输出,不改动模型参数。】
①提示添加:借助特定的模板,将原始的文本和额外添加的提示拼接后输入到语言模型中。
②答案搜索:将构建好的提示整体输入语言模型后,需要找出语言模型对处预测得分最高的文本。根据任务特性,可以事先定义预测结果,的答案空间为
。在简单的生成任务中,答案空间可以涵盖整个语言,而在一些分类任务中,答案空间可以是一些限定的词语。
③答案映射:得到的模型输出并不一定就是最终的标签。在分类任务中,还需要将模型的
输出与最终的标签做映射。而这些映射规则是人为制定的,比如,将“太好了“、”“好”映射为“正面“标签,将“不好”、“糟糕”映射为“负面,标签,将“一般,映射为“中立标签。
(2)语境学习【上下文学习】
在输入上下文中直接提供“任务说明 + 示例 + 待预测数据”,让模型在推理时依靠上下文进行学习,而不是改动参数。
例子1:2 + 3 = 5
例子2:7 + 8 = 15
现在请计算:4 + 6 = ?
模型就能从上下文中推断出加法模式。
2、高效模型微调
针对大模型动辄百亿参数的特点,完全微调代价高昂,为了节省成本,研究人员提出多种参数微调方法,旨在仅训练少量参数使模型应用到下游任务。
(1)LoRA(Low-Rank Adaptation)----典型方法
-
只在权重矩阵的低秩部分加可训练参数,其余冻结。
-
优点:显著减少显存和计算需求。
-
(2)Prefix Tuning
给输入加一段可训练的“前缀向量”,模型核心参数保持不变。
(3)Adapter
在网络层之间插入小的可训练模块,即适配器。微调时只更新这些适配器参数而保持原始模型参数不变。
3、指令数据构建
构造“指令 + 输入 + 输出”的训练样本,让模型学会遵循人类指令。 指令数据的质量和多样性通常被认为是衡量指令数据的两个最重要的维度。
(1)手动构建指令
手动构建指令今的方法比较直观,可以在网上收集大量的问答数据再人为加以筛选过滤
或者使用标注人员直接手动编写提示与相应的回答。优势在于可以很好的把控指今数据的标注过
程,并对整体质量进行很好的控制。
(2)自动生成指令【Self - instruct】
一种利用大模型生成能力自动生成指令的方法,解决手动构建指令数据代价高的问题。
生成任务指令-->确定指令是否代表分类任务---->生成任务输入和输出---->过滤低质量数据
(3)开源指令数据集
四、强化学习
在有监督微调后,模型已经“听话”但可能不够“聪明”,强化学习能进一步让模型更贴近人类偏好。 它的目标就是使智能体在复杂且不确定的环境中最大化奖励。
1、强化学习概述
(1)智能体与环境
在机器狗学习抓飞盘的场景中,机器人狗就是一个智能体(Agent),它做出决策并执行动作。而它所在的场景,包括飞盘的飞行轨迹和速度,以及其他可能的因素则构成了环境(Euironment)。
环境会根据智能体的行为给予反馈,道常以奖励的形式。
(2)状态、行为与奖励:
每次机器狗尝试抓飞盘,它都在评估当前的状态(State),这可能包括飞盘的位置、速度等。基于这些信息,它会采取某种动作(hcin),如跳跃、奔跑或待在原地。根据机器狗所执行的动作,环境随后会给出一个奖励(Reward),这可以是正面的(成功抓位飞盘)或负面的(错过了飞盘)。
(3)策略与价值
机器狗在尝试各种行为的过程中,其实是在学习一个策略(Poicy)。策略可以视为一套指导其如何在特定状态下行动的视则。与此同时,智能体还试估计价值(Talue)函数,也就是预测在未来采取某一行为所能带来的奖励。
3、强化学习在大语言模型上的重要作用
预训练 + 有监督微调(SFT)只能让模型具备语言能力和遵循指令的能力,但存在几个明显问题:输出可能不符合人类价值观、无法根据用户偏好动态优化、容易出现“机械式”回答。强化学习让 LLM 从“会说”变成“会说、说得好、说得合适”。
-
预训练 → 学习通用语言能力
-
有监督微调(SFT) → 学会遵循任务指令
-
强化学习(RLHF) → 对齐人类偏好与安全性,让回答更自然、可靠
4、基于人类反馈的机制(RLHF)
在RLHF中,人类的偏好被用作奖励信号,以指导模型的训练过程,从而增强模型对人类意图的理解和满足程度。这种方法使得模型能够更自然地与人类进行交互,并生成更符合人类期望的输出。
多种策略产生样本并收集人类反馈--->训练奖励模型--->训练强化学习策略,微调 LLM
RLHF实战:InstructGPT训练的3个阶段 为例介绍
(1)第一步:收集描述性数据,并训练一个监督学习模型
从prompt数据集中采样出一部分数据。---->标注员根据要求为采样的prompt编写答案,形成demonstration data。---->利用这些标注好的数据来微调GPT-3模型,训练出一个监督学习模型。
Supervised Fine-Tuning(SFT): 有监督微调,即使用描述性数据来微调GPT-3模型。
Demonstration Data: 描述性数据,由标注员为prompt编写的答案。
(2)第二步:收集比较性数据,并训练一个奖励模型
从prompt数据库中取样,并得到数个模型的答案。--->标注员为模型的多个输出进行打分或排序,这些输出是基于同-prompt生成的。----->利用这些打分或排序数据来训练一个奖励模型(Reward Modeling,RM),该模型能够预测人类对不同输出的偏好分数。
Reward Modeling(RM): 奖励模型,用于预测人类对不同输出的偏好分数。
Comparison Data: 比较性数据,由标注员对模型输出的打分或排序构成。
(3)第三步:用PPO强化学习算法对奖励模型进行优化
从prompt数据库中另外取样---->由监督学习初始化PPO模型-->模型给出答案-->奖励模型对回答打分---->获得的分数通过PPO算法优化模型。
- Proximal Policy Optimization(PPO): 近端策略优化算法,一种用于强化学习的策略优化方法。
- Reinforcement Learning from Human Feedback(RLHF): 基于人类反馈的强化学习,是InstructGPT训练过程中的核心方法。
5、奖励模型
受限于工作量和时间的限制,针对每次优化送代,人类很难提供足够的反馈来。更为有效的方法是构建奖励模型(Reward Mode),模拟人类的评估过程。奖励模型决定了智能体如何从与环境的交互中学习并优化策略以实现预定的任务目标。即将人类偏好转化为可计算的数值奖励,供优化算法使用。
6、近端策略优化(PPO)
在强化学习中,如果每次参数更新幅度太大,模型可能会突然崩坏(输出质量急剧下降)。
PPO 的作用就是限制每一步的变化幅度,让优化过程稳定、可控。
-
策略(Policy):模型生成回答的概率分布
-
PPO 在更新策略时,会比较新旧策略的差异(用 KL 散度等指标衡量)
-
如果差异太大,就限制更新步长,避免模型性能剧烈波动
五、LLM的应用
1、推理规划
LLM 通过逻辑推理、分步拆解复杂问题,完成需要规划能力的任务。
- 核心能力:基于现有知识进行因果推理、数学推理、逻辑演绎,将复杂目标分解为可执行的步骤。
- 应用场景:数学解题(如分步推导方程)、逻辑证明、任务规划(如行程安排、项目拆解)、决策支持(如分析多因素影响并给出最优方案)等。
- 示例:LLM 可根据用户 “制定一周减脂计划” 的需求,拆解出饮食搭配、运动安排、作息调整等子任务,并细化每日执行细节。
(1)方法--思维链提示
通过在提示中加入 “中间推理步骤” 的示例,引导 LLM 在解决复杂问题时分步拆解、逐步推导,最终得出结论。
(2)方法-由少到多提示
先将复杂问题拆解为一系列简单的子问题,让模型逐个解决子问题,再基于子问题的结果逐步推导最终答案。
- 优势:通过 “分而治之” 降低问题难度,尤其适用于需要多轮逻辑关联的任务(如复杂推理、长文本分析),避免模型因信息负荷过重而出错。
- 示例:处理 “某公司去年利润 100 万,今年成本上涨 20%,收入增长 15%,今年利润比去年多多少?” 时,先引导模型计算 “今年成本”“今年收入”,再推导 “今年利润” 和 “利润差值”。
2、综合应用框架
基于 LLM 构建整合多工具、多模块的系统性应用方案,实现复杂场景下的功能协同。
- 核心特点:以 LLM 为中枢,连接外部工具(如数据库、API、计算器)、知识库或其他模型,形成端到端的解决方案。
- 典型框架:如 LangChain、AutoGPT 等,支持工具调用(如查询实时数据、执行代码)、上下文管理、多步骤任务调度。
(1)典型框架-LangChain
简单说,LangChain 就像一个 “大语言模型的工具箱”,帮你用 ChatGPT 这类 AI 干更具体、更复杂的事儿,不用自己从零搭系统。【如想让 AI 帮你自动查天气、订酒店,再整理成行程?它能把 AI 和查天气的工具、订酒店的网站连起来,一步到位。】
介绍 | Langchain 中文网
保姆级 LangChain 入门:概念解析 + 安装 + 大模型调用三步实战 - 知乎
关键组件:
如:知识问答系统
主要步骤:(1)收集领域知识数据构造知识库,这些数据应当能够尽可能的全面覆盖
问答需求:(2)将知识库中的对非结构数据进行文本提取和文本拆分,得到文块:
(3)利用嵌入向量表示模型给出文本块嵌入表示,并利用向量数据库进行保存;(4)
报据用户输入信息的嵌入表示,通过向量教据库检索得到最相关文本片段,利用提示
词模板与用户输入以及历史消息合并输入大语言模型:(5)将大语言模型结果返回用
3、智能代理 AI Agent
用大语言模型去为基础来构建这个 agent,那么让他更能像人一去回答一些问题,或者说处理一些事情。 指赋予 LLM 自主决策、持续交互和动态适应环境的能力,使其能独立完成长期或复杂任务。
(1)智能代理的组成
- 思考模块:智能代理的 “大脑”,负责理解输入信息,分析、推理后给出输出,能拆解任务、反思改进,具备语言理解生成、推理规划、反思学习的本事。
- 记忆模块:智能代理的 “小脑”,用来记世界知识、社会常识、交互历史这些,还得额外存世界知识和社会属性相关的 “外挂记忆” 。
- 工具调用模块:智能代理的 “手臂”,能调用外部工具,减轻记忆负担、提升专业能力,还能让决策更可信,更好应对挑战。
(2)实例
以解决数学问题的任务为例子:
①对每个任务,用户描述任务的基本需求
②每个智能代理按一定顺序发言
③每个智能代理接收来自其他智能代理的发言,并重新进行思考,
④重复②与③直到多个智能代理达到一致意见或迭代次数
321个AI代理案例揭示:改变行业的6大场景大揭秘!_Agent_企业_用户
4、多模态大模型
指 LLM 与图像、音频、视频等多模态信息处理能力结合,实现跨模态理解与生成。
(1)min-gpt4
miniGpt4 期望将来自预训练视觉编码器的圆像信息与大语言模型的文本信息对齐,它的模型架构如图所示。具体来说主要由三个部分构成:预训练的大语言模型,预训练的视觉编码器
以及一个单一的线性投影层。把图像特征转成语言模型能理解的格式,再用语言模型生成文本。
当输入图像(如 logo、照片,收集到的图像 - 文本对数据作为训练数据),先由视觉编码器提取 “结构化特征”----->当视觉编码器输出 “图像特征向量”,线性投影层负责把向量维度、数值范围,调整成大语言模型(Vicuna)能直接接收的格式---->接收 “处理好的图像特征 + 文本指令”(比如用户问 “这 logo 设计咋样” ),用语言模型的 “文本理解、生成能力”,输出自然语言回答(分析设计风格、优缺点等 )
5、大语言模型推理优化
指通过技术手段提升 LLM 的推理效率、降低资源消耗,同时保持或提升性能
(1)优化方向:
- 模型压缩(如量化、剪枝,减少参数规模);
- 推理加速(如使用 GPU/TPU 优化、模型并行 / 张量并行技术);
- 算法优化(如动态解码、缓存机制,减少重复计算);
- 适配边缘设备(轻量化模型,支持在手机、嵌入式设备上运行)。
(2)FastServe 框架
由北京大学研究人员开发,针对大语言模型分布式推理服务设计优化
- 低作业完成时间,聚焦交互式大语言模型应用,追求推理作业快速完成
- 高效 GPU 显存管理,应对大语言模型参数、键值缓存占显存问题,存储模型与中间状态
- 可扩展分布式系统,适配大语言模型多 GPU 分布式推理需求
Wu B, Zhong Y, Zhang Z, et al. 论文《Fast distributed inference serving for large language models》,arXiv 预印本,编号 arXiv:2305.05920,2023 年发布
六、LLM的评估
1、大语言模型评估体系
传统的自然语言处理算法通常需要为不同任务独立设计和训练。而大语言模型是采用单一模型,却能够执行多种复杂的自然语言处理任务。
在大语言模型评估中,首先需要解决的就是构建评估体系问题。从整体上可以将大语言模型评估分为三个大的方面:知识与能力、伦理与安全、垂直领域评估。
(1)知识与能力
从任务、领域、语言或语言变体三个方面划分场景。
- 任务:聚焦评测功能,如问答、摘要等,明确模型需完成的具体目标。
- 领域:聚焦评测数据类型,例如基于维基百科 2018 年数据集,还进一步细分为文本属性(内容是什么)、说话者属性(谁产出的)、时间 / 情境属性(何时何地产生)。
- 语言或语言变体:如西班牙语等,考察模型在不同语言上的表现。
(2)伦理与安全
大语言模型在训练时通常遵循3H原则:帮助性模型应帮助用户解决问题、真实性模型不能捏造信息或误导用户;无害模型不能对人或环境造成身体、心理或社会性的伤害。
六种指令攻击方法:目标劫持、提示泄露、角色扮演、不安全的指令主题、注入不易察觉的不安全内容、逆向暴露
(3)垂直领域评估
针对特定行业的知识和任务进行专项测试。
2、大语言模型评估评估指标
分类任务:精确率、召回率、准确率、F1分数等等
回归任务:MAE、MSE等等
语言模型新加的评估指标:交叉熵、困惑度、BLEU、ROUGE、Bert分数等等
LLM评估有哪些指标? ROUGE 分数、BLEU、困惑度、MRR、BERTScore_rouge分数-CSDN博客