🧭 一、通用能力评估(多任务、多学科)
数据集名 | 简介 | 用途 |
---|
MMLU (Massive Multitask Language Understanding) | 覆盖57个学科领域(历史、生物、法律、数学等) | 评估多学科理解能力 |
AGIEval | 模拟中国高考、研究生入学考试等 | 评估中文学科能力(特别贴近中文场景) |
ARC (AI2 Reasoning Challenge) | 小学/初中水平的科学问答题 | 评估推理与常识 |
HELLASWAG | 日常场景的多选推理题 | 评估常识与推理能力 |
BBH (Big-Bench Hard) | BIG-Bench子集,难度高的任务 | 挑战模型的极限能力 |
GSM8K | 小学数学题(Grade School Math) | 评估模型的数学推理能力 |
MATH | 包括高中、大学级别的数学题 | 更难,更适合评估数学能力 |
📖 二、阅读理解与问答任务(QA/NLU)
数据集名 | 简介 | 用途 |
---|
SQuAD v1/v2 | 英文问答,要求从段落中找答案 | 经典阅读理解测试 |
NaturalQuestions (NQ) | 来自真实用户搜索问答 | 检测开放问答能力 |
TriviaQA | 多领域知识问答题 | 测知识广度与召回能力 |
HotpotQA | 多段落、推理问答 | 检测模型的多跳推理能力 |
CMRC2018 | 中文版SQuAD风格问答 | 测中文阅读理解能力 |
DuReader | 百度开放的中文问答数据集 | 真实互联网场景中文QA |
💬 三、对话与多轮交互评估
数据集名 | 简介 | 用途 |
---|
DSTC系列 | 多轮对话挑战赛数据集 | 对话系统评估 |
PersonaChat | 有人格设定的对话 | 测评人设一致性 |
DialogUE | 多个任务整合,如意图识别、对话生成等 | 多功能中文对话测试 |
MultiWOZ | 多领域任务导向对话数据集 | 对话规划与理解能力 |
✍️ 四、文本生成、写作类评估
数据集名 | 简介 | 用途 |
---|
XSum | 英文极短摘要任务 | 测试摘要质量 |
CNN/DailyMail | 英文长摘要任务 | 测试结构化内容理解 |
TREC | 问句分类任务 | 测问题分类/生成准确性 |
LEval(LLaMA-Eval) | 面向中文大模型的评估体系 | 支持中文写作/问答/推理/数学等维度 |
🔧 五、代码生成/推理类数据集
数据集名 | 简介 | 用途 |
---|
HumanEval | OpenAI提出,代码补全+测试通过率 | 代码生成能力评估(如Pass@k) |
MBPP | 小规模编程问题+自动测试 | Python函数生成能力 |
APPS | 包含竞赛题目+复杂问题 | 高级代码生成挑战 |
🧠 六、安全性/有害性评估数据集
数据集名 | 简介 | 用途 |
---|
TruthfulQA | 检测模型是否会“编造事实” | 测事实准确性、幻觉倾向 |
ToxiGen | 测试有害语言生成 | 有害内容识别 |
HaluEval | 中文大模型幻觉评估 | 中文场景下的幻觉检测 |
AdvBench | 中文对齐性/鲁棒性挑战集 | 评估越狱/对齐能力 |
🔚 总结一句话:
如果你是做模型评估或者开发 LLM 产品,选对数据集 = 抓住了关键能力点!
🎯 按目标推荐数据集:
目的 | 推荐数据集 |
---|
通用能力测试 | MMLU, AGIEval, BBH |
中文模型评估 | CMRC, DuReader, AGIEval, LEval |
数学/推理能力 | GSM8K, MATH, ARC, HellaSwag |
对话交互能力 | MultiWOZ, DialogUE, PersonaChat |
安全性检测 | TruthfulQA, ToxiGen, AdvBench |
编程模型测试 | HumanEval, MBPP, APPS |