当前位置: 首页 > news >正文

大模型应用评估指标学习笔记

参考:https://mp.weixin.qq.com/s/wcVPmyZl7mNGw2R-ZaCiMQ

1、传统NLP评估指标

在评估分类、翻译、摘要等传统 NLP 任务时,我们通常会借助准确率(accuracy)、精确率(precision)、F1 值、BLEU 和 ROUGE 这类传统指标。


🧩 一、分类任务指标(Accuracy、Precision、Recall、F1)

这些指标主要用于 分类任务(Classification),例如:

  • 文本分类(正负面情感)

  • 实体识别(是否识别对)

  • 检索阶段的命中评估(是否检索到正确文档)

1️⃣ 准确率(Accuracy)

定义:

解释:
整体上模型预测对的比例。
适合样本平衡的任务。

例子:
有 100 条情感分类样本(正/负),预测正确 90 条 →
Accuracy = 90 / 100 = 0.9

⚠️ 注意: 如果样本极度不平衡(比如 95% 都是“负面”),模型只要一直预测“负面”,准确率仍然高,但其实没学到任何有用的规律。


2️⃣ 精确率(Precision)

定义:

  • TP(True Positive):预测为正且确实是正的

  • FP(False Positive):预测为正但其实是负的

解释:
预测为“正”的样本中,有多少是真的正的。
反映“预测结果的质量”

例子:
模型预测了 10 条是“正面”,其中 8 条是真的正面 →
Precision = 8 / 10 = 0.8


3️⃣ 召回率(Recall)

定义:

  • FN(False Negative):其实是正的但预测成负的

解释:
真正的“正样本”中,有多少被模型找到了。
反映“漏检情况”

例子:
总共有 20 条真“正面”样本,模型找到了其中 8 条 →
Recall = 8 / 20 = 0.4


4️⃣ F1 值(F1-score)

定义:

解释:
精确率和召回率的调和平均。
当希望平衡“预测正确率”和“覆盖率”时,使用 F1。

例子:
Precision = 0.8, Recall = 0.4 →
F1 = 2 × (0.8 × 0.4) / (0.8 + 0.4) = 0.533


总结类比:

指标关注点类比
Accuracy整体对错比例“考试总分”
Precision预测为正的中有多少是真的“查到的都对吗?”
Recall所有正的中有多少被查到“有没有漏掉?”
F1平衡 Precision 和 Recall“综合表现”

🧠 二、生成任务指标(BLEU、ROUGE)

这些指标主要用于 文本生成任务(Text Generation)

  • 机器翻译

  • 摘要生成

  • 问答生成(答案文本匹配)

  • RAG中生成阶段的输出质量


5️⃣ BLEU(Bilingual Evaluation Understudy)

定义思路:
衡量 生成文本与参考文本在 n-gram 层面的重合度

例子:
参考句子:

"the cat is on the mat"
生成句子:
"the cat is on mat"

  • 1-gram 重合率 = 5/6

  • 2-gram 重合率 = 3/5
    → BLEU ≈ 0.68

解释:
高 BLEU 表示生成文本在词序和用词上更接近参考答案。

⚠️ 缺点:词义不同但语义相同的句子 BLEU 可能仍低。
例如:“the cat is on the mat” vs “the mat has a cat on it”。


6️⃣ ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

定义思路:
关注 生成文本和参考文本的“召回率” — 即生成文本中有多少内容覆盖参考答案。

常见变体:

  • ROUGE-N:n-gram 层面重合率(如 ROUGE-1、ROUGE-2)

  • ROUGE-L:最长公共子序列(Longest Common Subsequence)

例子:
参考摘要:

“The stock price increased after the announcement.”
生成摘要:
“The announcement caused the stock to rise.”

ROUGE-1 会统计相同的 unigram(如 "the", "stock", "announcement"),
ROUGE-L 会发现两者在顺序上也有共同子序列 → 得分较高。


生成指标总结:

指标主要衡量特点
BLEU精确匹配率(n-gram)常用于机器翻译;惩罚短句
ROUGE召回率(内容覆盖)常用于摘要生成

📘 举个综合例子(对比场景)

任务推荐指标原因
文本分类(正负面)Accuracy / F1二分类标准
命名实体识别(NER)Precision / Recall / F1更关心召回率
文本匹配 / 检索Recall@k, MRR是否找到正确文档
机器翻译BLEU看翻译与参考译文一致程度
摘要生成ROUGE-L看生成摘要覆盖关键信息的程度
开放问答(RAG)F1 + ROUGE / BLEU平衡文本正确性和语义覆盖

2、大语言模型基准测试

基准覆盖范围难度 / 目标题型 /任务形式适合评估什么注意事项
MMLU-Pro多学科(14 大领域,如数学、物理、法学、心理学 …)高 — 知识 +推理,多选10选项多选题(闭卷)模型的广知识+推理能力难度高;对生成、对话能力覆盖少
GPQA三大科学领域(生物、物理、化学)很高 — 专家级、Google-proof多选题(448 道)模型在深科学知识+推理上的表现覆盖面窄;只测选题型;模型训练数据可能含题目
BIG-Bench非常宽(200+个任务,涵盖推理、数学、代码、偏见、语言、逻辑 …)极为广泛且难多任务形式:多选、生成、编程、逻辑推理 …模型的广泛能力、边界能力、未来潜力运行成本高;任务异质导致综合解释难;基准更新需求大

3、将LLM用作评估器

当问题存在歧义或属于开放式问题时,答案可能会出现波动。MT-Bench 就是采用 LLM 评分的基准测试之一,它将两个相互竞争的多轮对话答案提供给 GPT-4,并要求其判断哪个更好。

4、多轮对话系统的评估

4.1 首要关注的是相关性(连贯性)与完整性

相关性指标用于追踪 LLM 是否恰当地处理了用户的查询并保证不偏离主题;而若最终结果真正达成了用户目标,则完整性得分就高

4.2 第二个核心维度,是知识留存能力(Knowledge Retention)与应答可靠性(Reliability)

即:它是否记住了对话中的关键细节?能否确保不会“迷失方向”?仅记住细节还不够,它还需要能够自我纠正。

4.3 第三部分可追踪的是角色一致性与提示词遵循度,用于检验LLM是否始终遵循预设角色设定,是否严格执行系统提示词中的指令

4.4 接下来设计安全性的指标,例如幻觉偏见/毒性

5、RAG系统的评估


🌐 一、RAG 系统中的评估层次

在一个典型的 RAG(Retrieval-Augmented Generation) 系统中,我们通常把评估分成三个阶段:

阶段内容主要指标
1. 检索阶段 (Retrieval)检索到相关文档Precision@k、Recall@k、Hit@k、MRR、nDCG
2. 生成阶段 (Generation)基于检索结果生成答案BLEU、ROUGE、F1、BERTScore 等
3. 综合阶段 (End-to-End)检索+生成整体表现Faithfulness、Answer Accuracy、人类评测

5.1 检索环节,检验系统为特定查询抓取的文档是否精准

若检索环节得分偏低,可通过以下方式进行优化:制定更合理的文本分块策略、更换嵌入模型、引入混合搜索与重排序技术、使用元数据进行过滤等方法。我们先聚焦第一层 —— IR 指标


📚 二、IR 指标的直观理解

假设我们有一个问题:

“Who developed the theory of relativity?”

语料库中有 1000 篇文档,只有 2 篇真正包含答案信息(爱因斯坦)。

我们让 RAG 的检索模块返回前 k=5 篇最相关的文档。

现在要评估这 5 篇中有多少篇是“真正相关的”,这就是 IR 指标的核心思想


🔹 1. Precision@k(前 k 的精确率)

定义:

解释:
前 k 个结果中有多少比例是“真正相关的”。

例子:

  • 检索返回 5 篇文档(k=5)

  • 其中有 3 篇确实包含答案(相关)
    Precision@5 = 3 / 5 = 0.6

作用:
反映检索结果的“纯度”。
高 precision 表示前 k 个结果都很干净、相关性高。

适合场景:

  • 用户只看前几个文档或前几个段落。

  • 系统生成阶段只取 top-k 文档输入。


🔹 2. Recall@k(前 k 的召回率)

定义:

解释:
模型找回了多少比例的“应找回的相关文档”。

例子:

  • 总共有 2 篇相关文档

  • 前 5 个结果中找到了其中 1 篇
    Recall@5 = 1 / 2 = 0.5

作用:
反映“漏检率”。
高 recall 表示模型找回了更多真正有用的文档。

适合场景:

  • 后续生成阶段需要看到尽可能多的信息。

  • 对遗漏容忍度低(如医疗、法律场景)。


🔹 3. Hit@k(命中率)

定义:

解释:
是否“命中”至少一个正确文档。

作用:
最宽松的指标,用于衡量模型能否 至少 找到一篇相关文档。
在 RAG 场景中,只要有一篇包含关键信息,生成阶段就可能答对。


🔸 举个完整的例子

假设:

  • 语料库中一共有 3 篇相关文档(D1, D2, D3)

  • 检索模块返回前 5 篇: [D1, D4, D5, D2, D6]

排名文档ID是否相关
1D1
2D4
3D5
4D2
5D6

计算:

指标计算
Precision@52/50.4
Recall@52/30.667
Hit@5至少有一个相关1.0

🧮 三、它们的区别与互补关系

指标关注点优势劣势
Precision@k结果质量反映前 k 结果是否“干净”不考虑是否覆盖全部
Recall@k覆盖率反映是否漏掉相关文档不管误检是否多
Hit@k是否至少命中简单直观不反映命中数量多少

在实践中,我们通常结合多个指标来全面判断检索性能。


⚙️ 四、RAG 评估中的典型做法

在 RAG 系统中,我们一般:

  1. 为每个查询(问题)事先准备“Ground Truth”文档(即真正含答案的文档 ID)。

  2. 检索模型输出前 k 个候选文档。

  3. 计算 Precision@k、Recall@k、Hit@k 等。

  4. 统计所有问题的平均值。


🧠 五、常见扩展指标

指标定义说明
MRR (Mean Reciprocal Rank)平均倒数排名:1 / (正确文档的排名位置)越高表示越靠前找到正确文档
nDCG (Normalized Discounted Cumulative Gain)对排名位置加权评分兼顾相关性和顺序
MAP (Mean Average Precision)平均精确率的平均综合多个 recall 水平的 precision

🎯 六、RAG 中的使用建议

场景推荐指标理由
检索模块优化(Dense/Hybrid)Precision@k + Recall@k平衡“命中质量”与“覆盖度”
调整 top-k 大小Recall@k评估是否扩大 k 能带来更多召回
快速 sanity checkHit@k看系统能否至少命中一篇
生成端联合优化Recall@k + F1 (在生成阶段)确保检索足够信息支撑生成答案

5.2 生成指标

RAG(Retrieval-Augmented Generation) 系统中,生成阶段的评估指标(Generation Metrics)用于衡量模型在“拿到检索结果后,生成的答案质量”这一部分。

这些指标主要回答两个问题:

  1. ✅ 生成的 内容是否正确(Correctness)

  2. 💬 生成的 表达是否自然、贴近参考答案(Fluency & Similarity)


🧩 一、RAG 整体评估回顾

一个 RAG 系统评估通常分为三层:

阶段目标常见指标
1️⃣ 检索阶段 (Retrieval)是否找对文档Precision@k, Recall@k, Hit@k, MRR
2️⃣ 生成阶段 (Generation)是否生成正确、自然的答案ROUGE, BLEU, METEOR, BERTScore, F1, Faithfulness
3️⃣ 综合阶段 (End-to-End)检索 + 生成的整体问答表现Answer Accuracy, Faithfulness, Human Eval

我们现在专讲第二层:生成阶段指标。


🧠 二、生成阶段指标分类总览

类型目的代表指标特点
📖 基于文本重叠(Surface-based)看生成文本与参考答案在 词面上 是否相似BLEU, ROUGE, METEOR快速计算、直观但可能忽略语义
💡 基于语义相似度(Semantic-based)看生成文本与参考答案在 语义上 是否相似BERTScore, Sentence-BERT Cosine更符合语义理解,但需要大模型或编码器
🔍 基于事实一致性(Faithfulness-based)看生成文本是否与 检索文档事实一致Faithfulness, FActScore, GPT-based Eval用于防止“幻觉”
⚖️ 分类或片段级别评估对抽取类任务(如问答)进行逐词比较Exact Match (EM), F1 (token-level)常见于 QA 评估(如 SQuAD)

📘 三、主流指标详解


1️⃣ ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

常用于:📄 摘要生成、问答生成、长文本输出。

定义:

衡量生成文本与参考答案在 n-gram 层面的重合程度。

常见版本:

  • ROUGE-1:1-gram(词)重合率

  • ROUGE-2:2-gram(词对)重合率

  • ROUGE-L:最长公共子序列(Longest Common Subsequence)

举例:

参考答案:

"The cat is on the mat"
生成答案:
"The cat lies on the mat"

重合词:the, cat, on, the, mat →
ROUGE-1 ≈ 5/6 ≈ 0.83

优点:

  • 简单、直观、快速

  • 对多样化文本任务通用

缺点:

  • 只看词面重叠,不理解语义
    (如 “lies” vs “is” 含义相同但不重叠)


2️⃣ BLEU(Bilingual Evaluation Understudy)

常用于:🌍 机器翻译、对话生成。

定义:

举例:

参考:"the cat is on the mat"
生成:"the cat is on mat"
→ BLEU ≈ 0.68

优点:

  • 翻译和短文本生成领域标准指标

  • 反映生成句子是否“接近参考”

缺点:

  • 对同义词、语序变化不鲁棒

  • 不适合自由生成或问答类任务


3️⃣ METEOR

常用于:机器翻译、自然语言生成。

与 BLEU/ROUGE 不同,考虑了词形还原与同义词匹配

特点:
  • 使用 WordNet 同义词库

  • 计算加权 F-score:综合了精确率与召回率

  • 考虑词序惩罚

优点:
比 BLEU 更符合人类主观评价。
缺点:
实现较复杂,依赖语言资源(如 WordNet)。


4️⃣ BERTScore

常用于:开放问答、生成式摘要、自由文本生成。

思路:

用 BERT 或 Sentence-BERT 对每个 token 向量化,计算语义相似度(Cosine similarity)。

举例:

即使词面不同,如:

  • 参考:"the cat is on the mat"

  • 生成:"the feline sits on the rug"

虽然没有词面重叠,但语义相似,BERTScore 仍可达 0.85+。

优点:

  • 语义层面,更贴近人类理解

  • 对同义词、改写鲁棒

缺点:

  • 计算慢

  • 依赖预训练模型(如 RoBERTa-large)


5️⃣ Exact Match (EM) & F1 (token-level)

常用于:问答(QA)任务。

定义:

举例:

参考:"Albert Einstein"
生成:"Einstein"
→ EM = 0, 但 F1 ≈ 0.67

优点:

  • 简洁明确,适合 QA 类任务

  • 与 SQuAD、HotpotQA 等评测体系兼容

缺点:

  • 对开放性回答不鲁棒(如 “He was Einstein” vs “Albert Einstein”)


6️⃣ Faithfulness(事实一致性)

常用于:RAG、摘要、事实生成任务。

定义:

评估生成答案是否与检索文档(evidence)一致,是否存在“幻觉(hallucination)”。

测评方式:

  • 人工标注:是否忠实于来源文档

  • 自动评测:FActScore、GPT-judge、LLM-as-a-judge 等

举例:

检索文档:

“Einstein developed the theory of relativity.”
生成答案:
“Newton developed the theory of relativity.”
→ 事实不一致 → Faithfulness = 0

优点:

  • 检测幻觉、事实错误

  • RAG 系统质量的关键指标

缺点:

  • 需要额外判断机制(LLM 或规则)

  • 自动化仍具挑战性


📊 四、指标之间的对比总结

指标类型对语义敏感对词序敏感常用于优点缺点
BLEU精确率翻译经典、稳定忽略语义
ROUGE召回率摘要易解释词面匹配
METEORF1 + 同义词部分翻译、摘要贴近人类
BERTScore语义QA、生成语义鲁棒依赖模型
F1 / EM精确匹配⚠️ 部分QA明确直观不适合开放回答
Faithfulness / FActScore事实一致性RAG防幻觉需外部验证

🧮 五、实践建议(RAG生成阶段)

评估目标推荐指标理由
生成答案是否与参考文本相似ROUGE / BERTScore语义+内容双重检查
答案是否完全正确EM / F1精确比较
答案语义是否合理BERTScore适合开放回答
是否忠实于检索文档Faithfulness / FActScore防止幻觉
对话流畅自然BLEU / GPT-based Human Eval语法自然度

小结

🔹 BLEU / ROUGE:看词面重叠
🔹 METEOR / BERTScore:看语义相似
🔹 EM / F1:看答案对不对
🔹 Faithfulness:看是否编造幻觉


5.3 综合指标

 “综合阶段指标(End-to-End Metrics)” 是 RAG(Retrieval-Augmented Generation)系统评估中最关键、也是最贴近实际应用的部分。
这阶段的目标是——不再只看检索准不准或生成流不流畅,而是整体上:答案对不对、逻辑通不通、有没有幻觉。

下面我来系统性地讲解:


🧩 一、什么是综合阶段(End-to-End Evaluation)

综合阶段(End-to-End Evaluation)是对 整个 RAG 系统 的最终表现进行评估的阶段。

它不关心内部的检索结果具体是什么、模型生成过程如何,而是直接关注:

  • “最终输出是否正确?”

  • “输出是否忠实于支持文档?”

  • “输出是否自然流畅、无幻觉?”


🧠 二、主要评估目标

目标含义
答案正确性(Answer Correctness)生成的答案是否与标准答案一致
忠实度(Faithfulness / Groundedness)生成的内容是否真实地基于检索到的文档
一致性(Consistency)多轮回答或多个文档间信息是否前后一致
流畅性(Fluency / Coherence)输出的语言是否自然通顺、逻辑连贯
有用性(Helpfulness / Relevance)输出是否真正回答了用户问题

📊 三、常见综合阶段指标(End-to-End Metrics)

下面我分为三大类详细讲:


1️⃣ 答案准确类指标(Answer-level Metrics)

这些指标直接衡量最终回答与参考答案(Ground Truth)的接近程度。

指标含义计算方式应用
Exact Match (EM)生成答案与标准答案完全一致的比例是否字符串完全相同QA任务,如 SQuAD
Answer F1生成答案与标准答案在词级别的重叠程度(兼顾精确率与召回率)$$ F1 = \frac{2PR}{P+R} $$QA、信息抽取
Answer Recall / Precision在生成答案中,正确信息的召回率 / 精确率实体匹配或关键词匹配知识问答
Answer Accuracy答案是否正确(0/1)逻辑判断、选择题类QAMMLU等任务

例子:

标准答案:

“RAG 是一种结合检索与生成的方法。”

模型输出:

“RAG 结合了检索和生成模型。”

结果:

  • EM = 0(不完全一致)

  • F1 ≈ 0.9(词级重叠高)

  • BERTScore ≈ 0.95(语义接近)


2️⃣ 忠实度与幻觉检测类指标(Faithfulness / Groundedness Metrics)

RAG 的核心问题之一是 幻觉(Hallucination)
这些指标用来检测模型是否“胡编乱造”,是否“忠实于检索文档”。

指标含义实现方式示例
Faithfulness Score输出内容与支持文档一致的程度通过对比生成文本与检索文档内容,统计一致句比例0~1越高越好
Groundedness模型回答是否“有依据”用大模型判断“是否可由文档推导”GPT评分或LLM-as-a-judge
Attribution Score每句生成内容是否能在文档中找到出处自动句匹配或embedding相似度检查引用是否正确
FActScore针对事实性陈述的自动评分(基于信息抽取与验证)用信息抽取模型 + 检索验证模型QA/报告生成任务

例子:

支持文档提到“OpenAI 于 2015 年成立”。
模型回答:“OpenAI 于 2017 年成立。”
→ Faithfulness = 0(与事实不符)


3️⃣ 人类可读性与实用性指标(Human-like Metrics)

机器自动指标有时不能全面反映生成质量,因此常结合人工或大模型评估。

指标含义获取方式
Fluency(流畅性)输出是否自然、语法正确人类评分或语言模型评分
Coherence(一致性)答案逻辑是否通顺、结构合理人类评分或embedding一致性
Relevance(相关性)输出是否真正回答了问题人类或LLM评估
Helpfulness(有用性)输出是否帮助用户理解问题人类或LLM评分
G-Eval / LLM-as-a-Judge使用大型语言模型对输出进行多维打分(如 GPT-4)常用于自动化评估 pipeline

例子:
使用 GPT-4 对每个答案进行以下打分:

维度:Faithfulness, Relevance, Coherence, Fluency
每项 1~5 分,最终平均分作为综合指标。

⚙️ 四、典型综合评估流程(End-to-End Pipeline)

RAG 输入问题 → 检索文档 → 生成答案 → 综合评估

示例流程:

阶段指标工具/方法
Step 1Answer Correctness (EM, F1)自动匹配
Step 2Faithfulness / Groundedness语义检索 + LLM-as-a-Judge
Step 3Coherence / FluencyGPT评分或BLEU/ROUGE
Step 4Aggregate Score加权平均或多维度汇总报告

🧮 五、一个真实例子

维度指标分值
AccuracyF10.87
FaithfulnessGroundedness Score0.93
CoherenceGPT Score4.5 / 5
FluencyGPT Score4.8 / 5
综合得分Weighted Sum0.91

这表示:
👉 模型生成的答案大体正确、忠实于文档、语言自然流畅。


💡 六、RAG 评估的趋势

现代 RAG 系统评估开始从“静态指标”→“语义理解”→“多维度一致性”演进:

阶段方法特点
传统阶段BLEU / ROUGE / EM仅比对词串
语义阶段BERTScore / Embedding Cosine语义级比较
智能阶段GPT-4 Judge / G-Eval / RAGAS大模型自动多维评估

🧭 七、小结表

指标类别核心指标评价维度常见工具
答案准确类EM, F1, Accuracy正确性SQuAD, RAGAS
忠实度类Faithfulness, Groundedness, FActScore幻觉检测GPT-4 Judge, RAGAS
人类评分类Fluency, Coherence, Relevance可读性、实用性GPT评分、人评
复合指标综合加权评分整体性能自定义 pipeline

6、Agent的评估

Agent 的评价指标(Agent Evaluation Metrics)” 是近年来在大模型应用中非常热门的研究主题,尤其是随着 LLM-based Agent(智能体) 在任务规划、工具调用、决策控制等场景的普及,如何科学地评估一个 Agent 的智能水平和可靠性 成为核心问题。

我来从专业角度系统地给你讲解这一部分内容👇


🧩 一、为什么要评估 Agent?

一个 Agent(智能体)通常具备以下能力:

  • 理解任务(Task Understanding)

  • 规划与推理(Planning & Reasoning)

  • 行动执行(Action Execution)

  • 与环境交互(Interaction / Tool Use)

  • 自我反思与纠错(Reflection & Correction)

因此,Agent 的评价指标必须覆盖多个维度,而不能只看“输出对不对”。


🧠 二、Agent 评估的总体框架

可以从三个层次理解:

评估层级目标典型指标
🧩 微观层(Micro)评估单步推理、调用是否正确Function Call Accuracy、Action Success Rate
⚙️ 中观层(Meso)评估完整任务流程是否顺畅Task Success Rate、Execution Efficiency
🌍 宏观层(Macro)评估整体智能、鲁棒性与用户体验Generalization、Reliability、Human Preference

📊 三、主要评价指标分类详解


任务成功率类(Task Success Metrics)

目标: 测量 Agent 是否完成了目标任务。

指标含义示例
Task Success Rate (TSR)Agent 是否成功完成目标任务若 10 个任务中成功 8 个 → TSR = 80%
Goal Completion Rate最终目标的完成程度(部分成功记部分分)任务完成度 0~1
Plan Execution Success执行的动作序列是否达成目标是否调用了正确的API序列
Subtask Completion Ratio子任务完成比例多阶段任务中每阶段成功率

✅ 例子:
问答Agent若正确回答了问题 → TSR=1;若回答部分正确 → TSR=0.5。


动作与工具调用类(Action / Tool Use Metrics)

目标: 评估 Agent 调用外部工具(API、数据库、搜索引擎等)的能力与效率。

指标含义示例
Action Accuracy工具调用参数是否正确调用weather_api(city=“London”)正确率
Tool Usage Efficiency使用工具的最优性调用次数最少且成功
Error Recovery Rate出错后能否自我纠错错误调用后能否重新规划
API Success RateAPI 调用成功比例调用返回状态200的比例
Latency / Cost Efficiency每次调用耗时或成本调用次数×平均耗时

✅ 例子:
一个检索型Agent调用搜索API 5次,其中4次成功 → API Success Rate = 80%。


推理与规划能力类(Reasoning / Planning Metrics)

目标: 衡量 Agent 的多步推理、计划和决策能力。

指标含义示例
Plan Coherence计划是否逻辑合理、无冲突“先打开文件→再读取→再关闭” 合理
Step Correctness每步推理是否正确多步算术推理准确率
Reasoning Depth推理层次数量是否具备多跳(multi-hop)推理
Chain-of-Thought Accuracy (CoT-A)思维链的逻辑合理性与正确推理路径匹配度
Causal Consistency因果推理是否正确因果结论与前提一致

✅ 例子:
在一个多步计算任务中,如果 Agent 每步逻辑正确且最终结果正确 → CoT-A = 1.0。


交互与协作类(Interaction Metrics)

目标: 衡量 Agent 与人类或其他 Agent 的协作质量。

指标含义示例
Conversational Turn Success每轮对话是否推进任务每一轮中是否取得进展
Human Satisfaction Score人类主观满意度(Likert 评分)用户评分 1–5
Helpfulness / Relevance回复是否有帮助且相关LLM 或人工评分
Adaptability / Robustness面对意外输入的稳定性用户乱输时能否纠正理解
Cooperation Score多 Agent 协作时的配合程度团队任务完成率

✅ 例子:
如果用户在3轮交互内获得想要的结果 → Turn Success = 高。


可靠性与鲁棒性类(Reliability / Robustness Metrics)

目标: 测量 Agent 是否稳定、安全、可复现。

指标含义示例
Error Rate任务或动作执行失败比例出错次数 / 总执行次数
Reproducibility Score同样输入是否能输出相同结果随机性控制测试
Safety Compliance是否违反安全策略不输出违规内容
Out-of-Distribution Robustness对异常输入的稳定性“边界测试”场景下的表现

✅ 例子:
Agent 在 100 次执行中仅 2 次崩溃 → Error Rate = 2%。


综合表现与智能水平类(Holistic / Intelligence Metrics)

这些指标通常由人类或大模型自动打分,用于整体评估智能体水平。

指标含义示例
Overall Task Score结合多项指标的加权总分TSR × 0.4 + CoT-A × 0.3 + Fluency × 0.3
Human Preference Score (HPS)人类更倾向哪个 Agent 输出比较式评分
G-Eval / LLM-as-a-Judge由 GPT-4 等大模型对Agent输出自动打分Faithfulness / Reasoning / Helpfulness
Generalization Score新任务迁移能力新任务成功率
RAGAS for Agents对Agent输出忠实度的量化检查引用准确性

🧮 七、Agent 评估自动化框架示例

一个完整的 Agent Evaluation Pipeline 通常包括以下步骤:

输入任务 → Agent 规划行动 → 执行工具调用 → 输出结果 → 自动评估

示意表:

阶段指标工具 / 方法
任务完成Task Success Rate, Goal Completion自定义任务脚本
工具使用Action Accuracy, API Success日志分析
推理能力CoT Accuracy, Plan CoherenceChain-of-Thought 比对
交互能力Turn Success, HelpfulnessLLM Judge 或人工评估
综合质量G-Eval, HPSGPT-4 / Claude 评估模型

🧭 八、常用评估框架与基准测试

基准目标特点
GAIA (General AI Agent Benchmark)通用智能体评估包含任务完成率、推理能力、工具使用
AgentBench (2024)多任务智能体综合评测14 类任务、细粒度指标
OSWorld / WebArenaWeb环境任务执行评测行动正确率、计划成功率
Mind2Web / MetaGPT Eval网页操作与代码生成Agent评估多步执行准确率
HELM / BigBench Hard泛化智能评估语义、逻辑与推理维度

📘 九、小结:Agent 评估维度总览

评估维度核心指标对应能力
任务完成度Task Success, Goal Completion执行力
工具使用Action Accuracy, API Success外部操作能力
推理规划CoT Accuracy, Plan Coherence智能与逻辑
交互协作Turn Success, Helpfulness沟通与理解
稳定鲁棒Error Rate, Safety Score可靠性
综合智能G-Eval, Human Preference智能水平

是否希望我帮你生成一个「📊 Agent 自动化评估脚本模板(含任务成功率 + 工具调用 + GPT-Judge 综合评分)」?
我可以给出一个 Python + LangChain Agents + GPT-4 Judge 的版本,用于自动评测 Agent 的整体表现。

7、主流评估框架

MLFlow 最初为传统机器学习 pipelines 设计,因此针对 LLM 应用的预置指标较少。OpenAI 提供非常轻量的解决方案,需要用户自行设定评估指标(尽管它提供了一个示例库帮助入门)。

RAGAS 提供了丰富的评估指标,并且与 LangChain 集成,便于快速部署。

DeepEval 则提供了大量开箱即用的功能,其功能集完全覆盖 RAGAS 指标。

http://www.dtcms.com/a/594766.html

相关文章:

  • 加氢站个公司好wordpress如何进数据库
  • [优选算法专题六.模拟 ——NO.40~41 外观数列、数青蛙]
  • 腾讯云服务器磁盘在线扩容系统盘
  • 网站制作详细流程sql数据库做的网站怎么发布
  • 关于网站开发的步骤音乐网站可做哪些内容
  • MySQL学习路线:4周从入门到实战
  • 站长检测同ip网站很多怎么办wordpress无法修改
  • 成都私人做网站信丰做网站
  • 正则表达式入门
  • 男和女做暖暖网站青海城乡住房建设厅网站
  • 服装设计师常用网站企业文化墙设计图效果图
  • 做爰全过程免费的教网站邢台做网站价位
  • 贵阳网站seo公司2022一级造价师停考
  • 递归函数练习题
  • [設計模式]設計模式原則
  • 【RK3568】TFTP+NFS启动文件系统
  • 网站建设 中标都江堰建设局网站
  • 网站开站备案外贸营销推广方案
  • 怎样注册网站中文域名免费个人网站 上传
  • 【Janet】控制流
  • 网站建设哪家公司最好免费医院网页模板
  • 【App开发】05:Android Studio项目配置文件全解析( App 项目结构)
  • 合并两个有序链表 --- 递归
  • 编译立创S3小智语音机器人+修改表情
  • 网站的文件夹结构承包工地的网站
  • Simulink从入门到入门--热水器1
  • 【开题答辩实录分享】以《云音乐小程序设计与开发》为例进行答辩实录分享
  • 三生团队网站找谁做的国人原创wordpress主题
  • 京东云网站建设做网站四百全包
  • 深圳做男装什么网站容易找工网站建设总体需求报告