当前位置：首页 > news >正文

大模型验证数据集总结

news 2025/8/22 3:55:37

大模型验证数据集涵盖：语言理解、推理、代码、多模态、伦理安全等核心方向，便于针对性地评估模型能力

1. 语言理解与生成

数据集	作用	典型任务示例
MMLU	评估多学科综合知识掌握能力（57个学科英文选择题）。	历史事件解释、科学概念辨析。
SuperGLUE	测试复杂语义理解（如文本蕴含、指代消解），比GLUE更具挑战性。	判断句子逻辑关系（BoolQ）、选择合理续写（COPA）。
SQuAD	机器阅读理解，要求根据段落回答开放性问题。	从文章中提取答案或生成摘要。
RACE	评估长文本阅读理解能力（中高考英语题）。	理解文章主旨并回答细节问题。
TruthfulQA	检测模型生成答案的真实性，避免虚假信息。	回答科学常识问题时是否产生幻觉。

2. 数学与逻辑推理

数据集	作用	典型任务示例
GSM8K	小学数学应用题，测试基础算术和文本解析能力。	“小明买了3个苹果，吃了1个，还剩几个？”
MATH	中高难度数学题（代数、几何等），考察符号推理。	解二次方程、证明几何定理。
DROP	结合文本的离散推理（数值计算、排序等）。	根据段落计算时间差或排序事件。
LogiQA	评估形式逻辑推理（演绎、归纳）。	“所有A是B，有些B是C，能否推出有些A是C？”
Theorem QA	测试数学定理相关知识的理解和应用。	解释勾股定理的适用条件。

3. 代码生成与算法

数据集	作用	典型任务示例
HumanEval	Python编程题，评估代码生成正确性和功能性。	编写函数计算斐波那契数列。
MBPP	基础Python任务，贴近实际开发需求。	实现文件读写或字符串处理功能。
APPS	竞赛级编程题目（高难度），测试复杂算法实现。	解决动态规划或图论问题。
CodeXGLUE	多语言代码任务（生成、补全、翻译等）。	将Java代码翻译为Python。

4. 常识与综合推理

数据集	作用	典型任务示例
HellaSwag	选择最合理的句子续写，评估常识推理能力。	“拿起杯子后，下一步是______”（喝水/扔杯子）。
BBH	复杂推理任务（BIG-Bench Hard子集），如因果分析。	“若A导致B，B导致C，A是否直接导致C？”
Winogrande	代词消歧，测试上下文敏感度。	“医生因为护士太忙而帮助她”，“她”指代谁？
HotpotQA	多跳问答，需结合多个文档信息推理。	“马斯克的第一家公司和特斯拉成立年份差几年？”

5. 多模态与跨模态

数据集	作用	典型任务示例
VQA	基于图像的问答，测试视觉-语言联合理解。	“图中猫是什么颜色？”
ScienceQA	多模态科学题（含图表），评估学科知识。	根据化学方程式选择反应类型。
OK-VQA	开放知识视觉问答，需结合外部知识。	“图中建筑属于哪种风格？（需知哥特式特征）”

6. 伦理、安全与真实性

数据集	作用	典型任务示例
ToxiGen	检测生成文本的毒性（仇恨言论、偏见）。	模型对敏感话题的回复是否含有歧视。
RealToxicityPrompts	通过对抗性提示触发有害输出，量化风险。	输入挑衅性语句，检查模型回复的温和性。
RAFT	对抗性事实评测，测试模型抗误导能力。	在包含虚假前提的问题中能否坚持正确答案。

7. 长文本与记忆

数据集	作用	典型任务示例
NarrativeQA	基于书籍/电影的问答，测试长文本叙事理解。	“《哈利波特》中斯内普的动机是什么？”
LAMBADA	预测段落最后一个词，评估长期依赖建模。	给定段落前半部分，补全结尾词。
GovReport	长文档摘要生成（如政府报告），测试信息压缩能力。	用100字概括一篇5000字的政策报告。

8. 多语言与跨文化

数据集	作用	典型任务示例
XTREME	跨语言理解评测（40种语言），如分类、问答。	西班牙语文本的情感分类。
FLORES	低资源语言机器翻译质量评估。	将斯瓦希里语翻译成英语。
C-Eval/CMMLU	中文专业知识与综合能力评测（STEM、人文等）。	“《红楼梦》的作者是谁？”

应用场景分类

通用能力：MMLU、SuperGLUE、BBH
专业领域：MedQA（医学）、Theorem QA（数学）、FEVER（事实核查）
安全部署：ToxiGen、RealToxicityPrompts
工业应用：MBPP（代码）、GovReport（文档处理）、VQA（视觉交互）
评估代码模型：HumanEval + APPS + CodeXGLUE
检验安全性：ToxiGen + TruthfulQA + RAFT
多语言能力：XTREME + FLORES + C-Eval

http://www.dtcms.com/a/231950.html

相关文章：

安卓开发：Reason: java.net.SocketTimeoutException: Connect timed out

优化技巧--滑动窗口

MaskSearch：提升智能体搜索能力的新框架

HTML基础学习

基于单片机的FFT的频谱分析仪设计

泛型编程技巧——使用std::enable_if实现按类型进行条件编译

Python 2.7 退役始末：代码架构缺陷与社区演进路线图

栈的应用:表达式求值

Linux随笔

滚珠导轨在光学设备中如何实现微米级运动？

《Coevolutionary computation and its application》协同演化及其应用中文对照·第一章

Visual Studio如何引入第三方头文件——以部署OpenGL为例

Stream流性能分析及优雅使用

NER实践总结，记录一下自己实践遇到的各种问题。

[JS逆向] 烯牛数据

HCIE-Datacom笔试题库

LVS、NGINX、HAPROXY的调度算法

if(!p)等价于 if（p==0)

C#Winform中DevExpress下的datagridview 特定列可编辑，其他列不可编辑

6个月Python学习计划 Day 14 - 阶段复盘 + 项目练习测试

功率估计和功率降低方法指南（1~2）

C++ PCL库预编译安装与排错：common is required but boost was not found

ROS2性能狂飙：C++11移动语义‘偷梁换柱’实战

爬虫学习记录day1

【Linux庖丁解牛】—自定义shell的编写！

Elasticsearch的搜索流程描述

《Docker》架构

舆情监控系统爬虫技术解析

针对KG的神经符号集成综述两篇

如何判断是 CPU 密集还是 IO 密集型任务?