当前位置: 首页 > news >正文

【机器学习深度学习】OpenCompass 评测指标全解析:让大模型评估更科学

目录

前言

一、主要评估指标

1. 准确率(Accuracy)

2. 生成质量(GEN)

3. ROUGE / LCS

二、通用评估指标

4. 困惑度(Perplexity, PPL)

5. 条件对数概率(Conditional Log Probability, CLP)

三、指标选择的策略

四、类比理解

1. 准确率(Accuracy) → 考试对错率✅

2. 生成质量(GEN) → 餐厅做菜🍲

3. ROUGE / LCS → 抄作业的相似度📄

4. 困惑度(PPL) → 老师的犹豫程度🤔

5. 条件对数概率(CLP) → 侦探办案的推理链🕵️‍♂️

五、总结



前言

在大语言模型(LLM)的开发与优化过程中,评估指标是连接技术研发与实际落地的桥梁。
OpenCompass 作为国内领先的大模型评测平台,针对不同任务类型提供了多种指标选择,既能量化模型性能,又能兼顾多样化场景需求。

本文将带你全面了解 OpenCompass 支持的主要评估指标,以及它们在实际应用中的意义和使用场景。


一、主要评估指标

这些指标是生成式大模型评估的“主力军”,在绝大多数应用开发与性能对比中都会用到。

1. 准确率(Accuracy)

  • 适用场景:选择题、分类任务

  • 计算方式:模型输出与标准答案匹配的比例

  • OpenCompass 配置metric=accuracy

  • 优势:直观、易于理解,能快速反映模型在明确标准下的正确率。

📌 例子
在法律考试题集上,如果模型回答 100 道选择题,其中 85 道正确,那么准确率就是 85%。


2. 生成质量(GEN)

  • 适用场景:自由文本生成(如开放问答、代码生成、摘要)

  • 评估方式:从模型生成结果中提取答案,并结合后处理脚本解析

  • OpenCompass 配置metric=gen + 指定后处理规则

  • 优势:支持对自由生成内容的定制化解析,更贴近真实使用场景。

📌 例子
在一道“写一段 Python 代码输出 1 到 10”的任务中,生成质量评测不仅看输出是否正确,还会解析代码运行结果是否符合要求。


3. ROUGE / LCS

  • 适用场景:文本生成相似度评估(如机器翻译、摘要)

  • 计算方式:对比生成文本与参考答案在词序列上的重合度(ROUGE),或最长公共子序列(LCS)。

  • OpenCompass 配置metric=rouge(需安装 rouge==1.0.1

  • 优势:在生成任务中广泛使用,能衡量生成内容与目标文本的接近程度。

📌 例子
在新闻摘要任务中,ROUGE 分数高意味着生成的摘要在用词与结构上更接近人工撰写的摘要。


二、通用评估指标

这些指标更偏研究与诊断用途,在应用开发中通常不直接参与模型优劣的对比。

4. 困惑度(Perplexity, PPL)

  • 适用场景:语言理解与预测能力测试,尤其是选择题评估

  • 含义:衡量模型对候选答案的预测不确定性

  • OpenCompass 配置:使用 ppl 类型数据集(如 ceval_ppl

  • 解读:PPL 越低,说明模型对正确答案越有信心。

  • 注意:在实际应用评测中,PPL 过高通常意味着模型底层语言建模能力不足,而不是微调的影响。


5. 条件对数概率(Conditional Log Probability, CLP)

  • 适用场景:复杂推理、上下文依赖任务

  • 含义:计算在给定上下文条件下,模型生成某个答案的概率

  • OpenCompass 配置use_logprob=True

  • 解读:CLP 高,代表模型对推理路径和结论的匹配程度高。

  • 注意:CLP 在应用评测中较少直接使用,更适合科研或调优阶段诊断模型弱点。


三、指标选择的策略

  • 应用开发优先:准确率、生成质量、ROUGE/LCS

  • 研究诊断参考:困惑度、条件对数概率

  • 组合评估更可靠:不同指标适用于不同任务,建议在评测体系中组合使用,以避免单一指标带来的偏差。


四、类比理解

指标定义生活化类比适用场景
准确率(Accuracy)比对生成结果与标准答案,计算答对比例考试对错率:100 道选择题答对 90 道,准确率 90%选择题、分类任务
生成质量(GEN)从自由生成结果中提取并验证是否符合要求餐厅做菜:菜品不光要长得像,还要有正确的食材和味道开放问答、代码生成、摘要
ROUGE / LCS衡量生成文本与参考文本的相似度抄作业的相似度:用词和结构越像,分数越高机器翻译、摘要生成
困惑度(PPL)测试模型对候选答案的信心程度(越低越好)老师的犹豫程度:一眼就确认是对的,困惑度低;犹豫很久,困惑度高选择题评估、语言预测能力诊断
条件对数概率(CLP)计算在给定上下文下生成答案的可能性侦探办案的推理链:线索与结论高度契合,概率高复杂推理、上下文依赖任务


1. 准确率(Accuracy) → 考试对错率

想象你在参加一场选择题考试:

  • 100 道题,你答对 90 道,那你的准确率就是 90%

  • 它不关心你为什么答对,只看最终结果是否和标准答案一致。

📌 对应 OpenCompass:判断模型在有标准答案的任务(如选择题、分类)中答对的比例。


2. 生成质量(GEN) → 餐厅做菜🍲

你点了一道“宫保鸡丁”,厨师端上来的菜不只是颜色对,还得:

  • 有鸡丁、有花生、味道合适(关键信息都包含)

  • 没有奇怪的配料(避免跑题)

📌 对应 OpenCompass:对自由生成的内容进行“后处理”,看是否符合任务要求。


3. ROUGE / LCS → 抄作业的相似度📄

你和同桌的作文题目相同,如果你抄得很像:

  • ROUGE 高:用的词和句子结构很像

  • LCS 高:你们的文章有很长一段文字完全一样

📌 对应 OpenCompass:衡量生成文本和参考答案在用词和顺序上的重合度。


4. 困惑度(PPL) → 老师的犹豫程度🤔

老师批改试卷时看到一个答案,如果她很快就认定“嗯,这就是正确答案”,困惑度就低;
如果她要反复想,“也许是另一个答案?”——困惑度就高。

📌 对应 OpenCompass:衡量模型在选择题里对候选答案的信心程度(值越低越好)。


5. 条件对数概率(CLP) → 侦探办案的推理链🕵️‍♂️

一个侦探在案发现场收集线索(上下文),再推理出谁是凶手(答案):

  • 如果线索和推理过程完美契合,CLP 高

  • 如果推理牵强附会,CLP 低

📌 对应 OpenCompass:衡量模型在给定上下文条件下生成某个答案的可能性。


五、总结

OpenCompass 的评测体系,既覆盖了标准化任务(准确率、PPL、CLP)的严谨要求,也支持开放式生成任务(GEN、ROUGE/LCS)的灵活测量。
在实际落地中,如果你是做应用开发的,应该优先关注主要评估指标;而如果你在模型研究或优化阶段,通用指标则能帮助你更精准地发现模型的结构性问题。

未来,随着大模型在更多领域落地,多维度指标的融合评测将会成为主流,既要“测得准”,又要“测得全”。

http://www.dtcms.com/a/332122.html

相关文章:

  • tun/tap 转发性能优化
  • 当云手机出现卡顿怎么办?
  • 自适应UI设计解读 | Fathom 企业人工智能平台
  • 基于微信小程序的家教服务平台的设计与实现/基于asp.net/c#的家教服务平台/基于asp.net/c#的家教管理系统
  • Boost库中boost::function函数使用详解
  • OpenCV-循环读取视频帧,对每一帧进行处理
  • GoLand深度解析:智能开发利器与cpolar内网穿透方案的协同实践
  • 0814 TCP通信协议
  • 一款开源的远程桌面软件,旨在为用户提供流畅的游戏体验,支持 2K 分辨率、60 FPS,延迟仅为 40ms。
  • 数据库访问模式详解
  • [TryHackMe](知识学习)---基于堆栈得到缓冲区溢出
  • opencv基础学习与实战(2)
  • Linux中的日志管理
  • 学习嵌入式第二十八天
  • 中山清华:基于大模型的具身智能系统综述
  • app-4 日志上传
  • 从0到1:C++ 语法之引用
  • qt项目中解决关闭弹窗后执行主界面的信号槽时闪退问题
  • 基于wireshark的USB 全速硬件抓包工具USB Sniffer Lite的使用
  • 多线程安全和性能测试
  • 珠海社保缴费记录如何打印
  • MyBatis Interceptor 深度解析与应用实践
  • CTFShow PWN入门---Kernel PWN 356-360 [持续更新]
  • 【嵌入式汇编基础】-ARM架构基础(五)
  • c/c++实现 TCP Socket网络通信
  • Docker存储卷备份策略于VPS服务器环境的实施标准与恢复测试
  • Linux 进程与内存布局详解
  • RecyclerView 拖拽与滑动操作
  • HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text
  • 多列集合---Map