大模型评估框架-----OpenCompass模型评估简介
一、什么是OpenCompass?
OpenCompass是一个开源项目,为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。它包含多个开源模型和开源数据集(BenchMarks),方便进行模型的效果评测。
二、生成式大模型的评估指标
OpenCompass支持以下主要评估指标,以满足生成式大模型的多样化需求:
- 准确率(Accuracy):用于选择题或分类任务,通过比对生成结果与标准答案计算正确率。在OpenCompass中,通过metric=accuracy配置。
- 困惑度(Perplexity, PPL):衡量模型对候选答案的预测能力,适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)。
- 生成质量(GEN):通过文本生成结果提取答案,需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen),配置metric=gen并指定后处理规则。
- ROUGE/LCS:用于文本生成任务的相似度评估,需安装rouge==1.0.1依赖,并在数据配置中设置metric=rouge。
- 条件对数概率(CLP):结合上下文计算答案的条件概率,适用于复杂推理任务,需在模型配置中启用use_logprob=True。
三、支持的开源评估数据集及使用差异
OpenCompass内置超过70个数据集,覆盖五大能力维度:
- 知识类:C-Eval(中文考试题)、CMMLU(多语言知识问答)、MMLU(英文多选题)。
- 推理类:GSM8K(数学推理)、BBH(复杂推理链)。
- 语言类:CLUE(中文理解)、AFQMC(语义相似度)。
- 代码类:HumanEval(代码生成)、MBPP(编程问题)。
- 多模态类:MMBench(图像理解)、SEED-Bench(多模态问答)。
此外,数据集在使用上存在一些区别和选择考虑:
- 评估范式差异:
- _gen后缀数据集:生成式评估,需后处理提取答案(如ceval_gen)。
- _ppl后缀数据集:困惑度评估,直接比对选项概率(如ceval_ppl)。
- 领域覆盖:
- C-Eval:侧重中文STEM和社会科学知识,包含1.3万道选择题。
- LawBench:法律领域专项评估,需额外克隆仓库并配置路径。