大模型验证数据集涵盖:语言理解、推理、代码、多模态、伦理安全等核心方向,便于针对性地评估模型能力
1. 语言理解与生成
数据集 | 作用 | 典型任务示例 |
---|
MMLU | 评估多学科综合知识掌握能力(57个学科英文选择题)。 | 历史事件解释、科学概念辨析。 |
SuperGLUE | 测试复杂语义理解(如文本蕴含、指代消解),比GLUE更具挑战性。 | 判断句子逻辑关系(BoolQ)、选择合理续写(COPA)。 |
SQuAD | 机器阅读理解,要求根据段落回答开放性问题。 | 从文章中提取答案或生成摘要。 |
RACE | 评估长文本阅读理解能力(中高考英语题)。 | 理解文章主旨并回答细节问题。 |
TruthfulQA | 检测模型生成答案的真实性,避免虚假信息。 | 回答科学常识问题时是否产生幻觉。 |
2. 数学与逻辑推理
数据集 | 作用 | 典型任务示例 |
---|
GSM8K | 小学数学应用题,测试基础算术和文本解析能力。 | “小明买了3个苹果,吃了1个,还剩几个?” |
MATH | 中高难度数学题(代数、几何等),考察符号推理。 | 解二次方程、证明几何定理。 |
DROP | 结合文本的离散推理(数值计算、排序等)。 | 根据段落计算时间差或排序事件。 |
LogiQA | 评估形式逻辑推理(演绎、归纳)。 | “所有A是B,有些B是C,能否推出有些A是C?” |
Theorem QA | 测试数学定理相关知识的理解和应用。 | 解释勾股定理的适用条件。 |
3. 代码生成与算法
数据集 | 作用 | 典型任务示例 |
---|
HumanEval | Python编程题,评估代码生成正确性和功能性。 | 编写函数计算斐波那契数列。 |
MBPP | 基础Python任务,贴近实际开发需求。 | 实现文件读写或字符串处理功能。 |
APPS | 竞赛级编程题目(高难度),测试复杂算法实现。 | 解决动态规划或图论问题。 |
CodeXGLUE | 多语言代码任务(生成、补全、翻译等)。 | 将Java代码翻译为Python。 |
4. 常识与综合推理
数据集 | 作用 | 典型任务示例 |
---|
HellaSwag | 选择最合理的句子续写,评估常识推理能力。 | “拿起杯子后,下一步是______”(喝水/扔杯子)。 |
BBH | 复杂推理任务(BIG-Bench Hard子集),如因果分析。 | “若A导致B,B导致C,A是否直接导致C?” |
Winogrande | 代词消歧,测试上下文敏感度。 | “医生因为护士太忙而帮助她”,“她”指代谁? |
HotpotQA | 多跳问答,需结合多个文档信息推理。 | “马斯克的第一家公司和特斯拉成立年份差几年?” |
5. 多模态与跨模态
数据集 | 作用 | 典型任务示例 |
---|
VQA | 基于图像的问答,测试视觉-语言联合理解。 | “图中猫是什么颜色?” |
ScienceQA | 多模态科学题(含图表),评估学科知识。 | 根据化学方程式选择反应类型。 |
OK-VQA | 开放知识视觉问答,需结合外部知识。 | “图中建筑属于哪种风格?(需知哥特式特征)” |
6. 伦理、安全与真实性
数据集 | 作用 | 典型任务示例 |
---|
ToxiGen | 检测生成文本的毒性(仇恨言论、偏见)。 | 模型对敏感话题的回复是否含有歧视。 |
RealToxicityPrompts | 通过对抗性提示触发有害输出,量化风险。 | 输入挑衅性语句,检查模型回复的温和性。 |
RAFT | 对抗性事实评测,测试模型抗误导能力。 | 在包含虚假前提的问题中能否坚持正确答案。 |
7. 长文本与记忆
数据集 | 作用 | 典型任务示例 |
---|
NarrativeQA | 基于书籍/电影的问答,测试长文本叙事理解。 | “《哈利波特》中斯内普的动机是什么?” |
LAMBADA | 预测段落最后一个词,评估长期依赖建模。 | 给定段落前半部分,补全结尾词。 |
GovReport | 长文档摘要生成(如政府报告),测试信息压缩能力。 | 用100字概括一篇5000字的政策报告。 |
8. 多语言与跨文化
数据集 | 作用 | 典型任务示例 |
---|
XTREME | 跨语言理解评测(40种语言),如分类、问答。 | 西班牙语文本的情感分类。 |
FLORES | 低资源语言机器翻译质量评估。 | 将斯瓦希里语翻译成英语。 |
C-Eval/CMMLU | 中文专业知识与综合能力评测(STEM、人文等)。 | “《红楼梦》的作者是谁?” |
应用场景分类
- 通用能力:MMLU、SuperGLUE、BBH
- 专业领域:MedQA(医学)、Theorem QA(数学)、FEVER(事实核查)
- 安全部署:ToxiGen、RealToxicityPrompts
- 工业应用:MBPP(代码)、GovReport(文档处理)、VQA(视觉交互)
- 评估代码模型:HumanEval + APPS + CodeXGLUE
- 检验安全性:ToxiGen + TruthfulQA + RAFT
- 多语言能力:XTREME + FLORES + C-Eval