当前位置: 首页 > news >正文

大模型评估框架-----OpenCompass模型评估简介

一、什么是OpenCompass?

OpenCompass是一个开源项目,为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。它包含多个开源模型和开源数据集(BenchMarks),方便进行模型的效果评测。

二、生成式大模型的评估指标

OpenCompass支持以下主要评估指标,以满足生成式大模型的多样化需求:

  • 准确率(Accuracy):用于选择题或分类任务,通过比对生成结果与标准答案计算正确率。在OpenCompass中,通过metric=accuracy配置。
  • 困惑度(Perplexity, PPL):衡量模型对候选答案的预测能力,适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)。
  • 生成质量(GEN):通过文本生成结果提取答案,需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen),配置metric=gen并指定后处理规则。
  • ROUGE/LCS:用于文本生成任务的相似度评估,需安装rouge==1.0.1依赖,并在数据配置中设置metric=rouge。
  • 条件对数概率(CLP):结合上下文计算答案的条件概率,适用于复杂推理任务,需在模型配置中启用use_logprob=True。

三、支持的开源评估数据集及使用差异

OpenCompass内置超过70个数据集,覆盖五大能力维度:

  • 知识类:C-Eval(中文考试题)、CMMLU(多语言知识问答)、MMLU(英文多选题)。
  • 推理类:GSM8K(数学推理)、BBH(复杂推理链)。
  • 语言类:CLUE(中文理解)、AFQMC(语义相似度)。
  • 代码类:HumanEval(代码生成)、MBPP(编程问题)。
  • 多模态类:MMBench(图像理解)、SEED-Bench(多模态问答)。

此外,数据集在使用上存在一些区别和选择考虑:

  • 评估范式差异
    • _gen后缀数据集:生成式评估,需后处理提取答案(如ceval_gen)。
    • _ppl后缀数据集:困惑度评估,直接比对选项概率(如ceval_ppl)。
  • 领域覆盖
    • C-Eval:侧重中文STEM和社会科学知识,包含1.3万道选择题。
    • LawBench:法律领域专项评估,需额外克隆仓库并配置路径。

相关文章:

  • js触发隐式类型转换的场景
  • 5. 蓝桥公园
  • TCP/UDP的连接和数据发送过程详解
  • 【模拟电路】稳压二极管/齐纳二极管
  • SGLang实战:从KV缓存复用到底层优化,解锁大模型高效推理的全栈方案
  • vue实现在线进制转换
  • 自定义排序注意点
  • 解决:AttributeError: module ‘cv2‘ has no attribute ‘COLOR_BGR2RGB‘
  • 微信小程序中使用ECharts 并且动态设置数据
  • 如何使用AI辅助开发CSS3 - 通义灵码功能全解析
  • Html页面Table表格导出导入Excel文件 xlsx.full
  • 蓝桥杯单片机刷题——按键设置当前采集距离为距离参数
  • TDDMS分布式存储管理系列文章--分片/分区/分桶详解
  • Navicat Premium Lite 17官方正版免费数据库连接工具
  • [C语言笔记]10、字符串
  • 【Ragflow】15.Ragflow-Plus管理系统v0.1.2:小升级,修复一些已知问题
  • 2025年慕尼黑上海电子展前瞻
  • 【笔试强训day16】
  • go 数据理解
  • 深入剖析 Kafka 的零拷贝原理:从操作系统到 Java 实践
  • 网站开发需要什么证书/seo网站推广培训
  • 米拓做网站图片在哪里删掉/百度公司简介
  • 网络公司怎么优化网站/开发一个app需要多少钱
  • 网站a记录吗/seo是什么意思 seo是什么职位
  • 怎样做网站的快捷方式/十大广告公司排名
  • 建设门户网站/图片搜索识图入口