当前位置：首页 > news >正文

大模型评估框架-----OpenCompass模型评估简介

news 2025/10/9 14:33:05

一、什么是OpenCompass?

OpenCompass是一个开源项目，为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。它包含多个开源模型和开源数据集（BenchMarks），方便进行模型的效果评测。

二、生成式大模型的评估指标

OpenCompass支持以下主要评估指标，以满足生成式大模型的多样化需求：

准确率（Accuracy）：用于选择题或分类任务，通过比对生成结果与标准答案计算正确率。在OpenCompass中，通过metric=accuracy配置。
困惑度（Perplexity, PPL）：衡量模型对候选答案的预测能力，适用于选择题评估。需使用ppl类型的数据集配置（如ceval_ppl）。
生成质量（GEN）：通过文本生成结果提取答案，需结合后处理脚本解析输出。使用gen类型的数据集（如ceval_gen），配置metric=gen并指定后处理规则。
ROUGE/LCS：用于文本生成任务的相似度评估，需安装rouge==1.0.1依赖，并在数据配置中设置metric=rouge。
条件对数概率（CLP）：结合上下文计算答案的条件概率，适用于复杂推理任务，需在模型配置中启用use_logprob=True。

三、支持的开源评估数据集及使用差异

OpenCompass内置超过70个数据集，覆盖五大能力维度：

此外，数据集在使用上存在一些区别和选择考虑：

评估范式差异：
- _gen后缀数据集：生成式评估，需后处理提取答案（如ceval_gen）。
- _ppl后缀数据集：困惑度评估，直接比对选项概率（如ceval_ppl）。
领域覆盖：
- C-Eval：侧重中文STEM和社会科学知识，包含1.3万道选择题。
- LawBench：法律领域专项评估，需额外克隆仓库并配置路径。