【NLP 57、LLM通用能力评价方式】
人生如题,放下,是最优雅的解法
—— 25.4.9
目前,我们通过一些特殊的“集合”来评价大语言模型效果
一、MMLU 集合
测量大规模多任务语言理解
评估模型在57个学科领域的综合知识理解能力,覆盖人文、社科、STEM(科学/技术/工程/数学)等方向,包括法律、伦理、医学等专业领域。
题目示例:
二、CMMLU 集合
专为中文语境设计,覆盖67个学科(含中国特色主题如“中国饮食文化”“驾驶规则”),评估模型的本土化知识及逻辑推理能力。
三、CEVAL 集合
中文综合性评估套件,覆盖52个学科(如微积分、法学)及四个难度层级(初中至专业考试)。
四、GSM8k 集合
测试模型解决小学数学应用题的能力,需多步骤算术推理。
五、HumanEval 集合
评估代码生成能力,要求模型根据函数签名和文档字符串编写正确代码。
最终评定是否能够成功执行以及执行结果是否正确
六、GPQA 集合
博士级科学问答基准,测试模型在生物学、物理学、化学领域的深度推理能力。
七、MATH 集合
评估高中数学竞赛级问题的解决能力,涵盖代数、几何、概率等。
八、数据集对比
数据集 | 核心能力 | 数据规模 | 难度层级 | 应用领域 |
---|---|---|---|---|
MMLU | 多学科综合知识 | 15k+ | 初级至专家级 | 通用智能评估 |
CMMLU | 中文本土化推理 | 11k+ | 小学至专业考试 | 中文场景优化 |
C-Eval | 中文跨学科深度推理 | 14k+ | 初中至专业考试 | 本土化知识库构建 |
GSM8K | 基础数学推理 | 8.5k | 小学水平 | 教育辅助工具开发 |
HumanEval | 代码生成与测试 | 164 | 初级至中等 | 自动化编程、代码补全 |
GPQA | 博士级科学推理 | 448 | 专家级 | 科研辅助、专业咨询 |
MATH | 高阶数学竞赛问题 | 12.5k | 高中竞赛至奥林匹克 | 数学教育、算法优化 |
九、Chatbot Arena
对同一个问题,由不同模型匿名生成不同答案,由人工进行打分
十、GPT4 评价
将不同LLM给出的答案送入GPT4
让GPT4对于结果好坏进行排序
优点:可自动化
缺点:对于事实性问题判断不准
最好的选择模型的方法是根据任务选择合适的模型,而不要相信市面上任何一个评价大语言模型能力的数据集,以在我们实际任务上的效果为准