当前位置: 首页 > news >正文

大模型验证数据集总结

大模型验证数据集涵盖:语言理解、推理、代码、多模态、伦理安全等核心方向,便于针对性地评估模型能力


1. 语言理解与生成

数据集作用典型任务示例
MMLU评估多学科综合知识掌握能力(57个学科英文选择题)。历史事件解释、科学概念辨析。
SuperGLUE测试复杂语义理解(如文本蕴含、指代消解),比GLUE更具挑战性。判断句子逻辑关系(BoolQ)、选择合理续写(COPA)。
SQuAD机器阅读理解,要求根据段落回答开放性问题。从文章中提取答案或生成摘要。
RACE评估长文本阅读理解能力(中高考英语题)。理解文章主旨并回答细节问题。
TruthfulQA检测模型生成答案的真实性,避免虚假信息。回答科学常识问题时是否产生幻觉。

2. 数学与逻辑推理

数据集作用典型任务示例
GSM8K小学数学应用题,测试基础算术和文本解析能力。“小明买了3个苹果,吃了1个,还剩几个?”
MATH中高难度数学题(代数、几何等),考察符号推理。解二次方程、证明几何定理。
DROP结合文本的离散推理(数值计算、排序等)。根据段落计算时间差或排序事件。
LogiQA评估形式逻辑推理(演绎、归纳)。“所有A是B,有些B是C,能否推出有些A是C?”
Theorem QA测试数学定理相关知识的理解和应用。解释勾股定理的适用条件。

3. 代码生成与算法

数据集作用典型任务示例
HumanEvalPython编程题,评估代码生成正确性和功能性。编写函数计算斐波那契数列。
MBPP基础Python任务,贴近实际开发需求。实现文件读写或字符串处理功能。
APPS竞赛级编程题目(高难度),测试复杂算法实现。解决动态规划或图论问题。
CodeXGLUE多语言代码任务(生成、补全、翻译等)。将Java代码翻译为Python。

4. 常识与综合推理

数据集作用典型任务示例
HellaSwag选择最合理的句子续写,评估常识推理能力。“拿起杯子后,下一步是______”(喝水/扔杯子)。
BBH复杂推理任务(BIG-Bench Hard子集),如因果分析。“若A导致B,B导致C,A是否直接导致C?”
Winogrande代词消歧,测试上下文敏感度。“医生因为护士太忙而帮助她”,“她”指代谁?
HotpotQA多跳问答,需结合多个文档信息推理。“马斯克的第一家公司和特斯拉成立年份差几年?”

5. 多模态与跨模态

数据集作用典型任务示例
VQA基于图像的问答,测试视觉-语言联合理解。“图中猫是什么颜色?”
ScienceQA多模态科学题(含图表),评估学科知识。根据化学方程式选择反应类型。
OK-VQA开放知识视觉问答,需结合外部知识。“图中建筑属于哪种风格?(需知哥特式特征)”

6. 伦理、安全与真实性

数据集作用典型任务示例
ToxiGen检测生成文本的毒性(仇恨言论、偏见)。模型对敏感话题的回复是否含有歧视。
RealToxicityPrompts通过对抗性提示触发有害输出,量化风险。输入挑衅性语句,检查模型回复的温和性。
RAFT对抗性事实评测,测试模型抗误导能力。在包含虚假前提的问题中能否坚持正确答案。

7. 长文本与记忆

数据集作用典型任务示例
NarrativeQA基于书籍/电影的问答,测试长文本叙事理解。“《哈利波特》中斯内普的动机是什么?”
LAMBADA预测段落最后一个词,评估长期依赖建模。给定段落前半部分,补全结尾词。
GovReport长文档摘要生成(如政府报告),测试信息压缩能力。用100字概括一篇5000字的政策报告。

8. 多语言与跨文化

数据集作用典型任务示例
XTREME跨语言理解评测(40种语言),如分类、问答。西班牙语文本的情感分类。
FLORES低资源语言机器翻译质量评估。将斯瓦希里语翻译成英语。
C-Eval/CMMLU中文专业知识与综合能力评测(STEM、人文等)。“《红楼梦》的作者是谁?”

应用场景分类

  • 通用能力:MMLU、SuperGLUE、BBH
  • 专业领域:MedQA(医学)、Theorem QA(数学)、FEVER(事实核查)
  • 安全部署:ToxiGen、RealToxicityPrompts
  • 工业应用:MBPP(代码)、GovReport(文档处理)、VQA(视觉交互)
  • 评估代码模型:HumanEval + APPS + CodeXGLUE
  • 检验安全性:ToxiGen + TruthfulQA + RAFT
  • 多语言能力:XTREME + FLORES + C-Eval

相关文章:

  • 安卓开发:Reason: java.net.SocketTimeoutException: Connect timed out
  • 优化技巧--滑动窗口
  • MaskSearch:提升智能体搜索能力的新框架
  • HTML基础学习
  • 基于单片机的FFT的频谱分析仪设计
  • 泛型编程技巧——使用std::enable_if实现按类型进行条件编译​
  • Python 2.7 退役始末:代码架构缺陷与社区演进路线图
  • 栈的应用:表达式求值
  • Linux随笔
  • 滚珠导轨在光学设备中如何实现微米级运动?
  • 《Coevolutionary computation and its application》协同演化及其应用中文对照·第一章
  • Visual Studio如何引入第三方头文件——以部署OpenGL为例
  • Stream流性能分析及优雅使用
  • NER实践总结,记录一下自己实践遇到的各种问题。
  • [JS逆向] 烯牛数据
  • HCIE-Datacom笔试题库
  • LVS、NGINX、HAPROXY的调度算法
  • if(!p)等价于 if(p==0)
  • C#Winform中DevExpress下的datagridview 特定列可编辑,其他列不可编辑
  • 6个月Python学习计划 Day 14 - 阶段复盘 + 项目练习测试
  • 网站开发单子/深圳公关公司
  • wordpress 导航网站模板下载/新媒体运营是做什么
  • wordpress 数据库用户/陕西seo优化
  • 专做秒杀的网站/百度推广电话销售好做吗
  • 淘宝网站建设弄什么类目/如何推广平台
  • 黑龙江做网站找谁/网络优化工程师有前途吗