GSM8K:评估大模型数学推理能力的关键数据集
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
1 GSM8K 数据集概述
GSM8K(Grade School Math 8K)是一个包含 8,500 个高质量、语言多样化的小学数学单词问题(Math Word Problems)的数据集。该数据集由 OpenAI 团队创建,并于 2021 年通过论文 Training Verifiers to Solve Math Word Problems 正式发布。其名称中的“8K”大致代表了问题数量,而“GSM”则指明了问题的小学数学难度水平。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
往期文章推荐:
- 20.二型最大似然(Type II Maximum Likelihood):概述与核心概念
- 19.半贝叶斯方法:理论基础、算法实现与应用全景
- 18.Gradient Centralization:一行代码加速训练并提升泛化能力的优化技术
- 17.Mish激活函数:一种自正则化的非单调神经激活函数
- 16.Swish激活函数:深度学习中的自适应门控激活机制
- 15.RMSprop优化算法:原理、应用与演进
- 14.康威生命游戏:零玩家游戏的元胞自动机奇迹
- 13.梯度范数:概念、性质、应用与算法实现
- 12.LSTM:长短期记忆网络的原理、演进与应用
- 11.古德-杰弗里斯悖论:贝叶斯统计中的先验选择难题
- 10.BRLESC计算机:美国弹道研究实验室的科学计算先驱
- 9.磁带记录仪:从磁带到数字的数据存储之旅
- 8.振荡器:从基础原理到大模型计算的时钟心脏
- 7.SuperGLUE:自然语言理解的挑战与进步
- 6.奇异值:数据科学的数学基石与应用核心
- 5.GLUE:自然语言理解评估的黄金基准
- 4.MMLU:衡量大语言模型多任务理解能力的黄金基准
- 3.低秩矩阵:揭示高维数据中的简约之美
- 2.低秩分解技术:从理论到应用的全方位解读
- 1.DROP:挑战机器离散推理能力的阅读 comprehension 基准
2 数据集的诞生与初衷
GSM8K 的创建源于一个观察:尽管大型语言模型在许多任务上表现优异,但在需要稳健多步数学推理的任务上仍存在显著困难。OpenAI 团队认为,即使这些问题所涉及的数学概念对于一名优秀的中学生来说并不复杂(通常仅需基本算术运算和初等代数知识,且无需显式定义变量),但它们却能有效揭示模型在逻辑推理和分步解决问题方面的局限性。
发布该数据集旨在:
- 诊断当前模型在数学推理上的失败案例。
- 支持相关研究,例如训练验证模型(verifiers)或改进推理技术。
- 提供一个高质量、难以“猜测”答案的基准,因为解决每个问题都需要一系列明确的推理步骤。
3 数据集的组成与结构
GSM8K 数据集中的每个实例都包含一个问题(question) 和一个答案(answer)。答案不仅提供了最终数值解,更重要的是展示了完整的多步推理过程。
3.1 数据示例与格式
{"question": "Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?","answer": "Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72"
}
从上面的例子可以看出:
- 问题:以自然语言描述一个数学问题。
- 答案:由一系列自然语言叙述的推理步骤和中间计算组成。
- 计算器注释(Calculation Annotations):使用特殊符号
<< ... >>
将具体的计算过程包裹起来(例如<<48/2=24>>
)。这是为了在训练时引导模型学会调用“计算器”来辅助计算,减少计算错误。 - 最终答案:以
####
后接数字的形式明确标出,便于自动提取和评估。
数据集提供了两种配置:
- main: 包含上述格式的标准问题和答案。
- socratic: 在答案的每一步推理前,增加了一个自动生成的“苏格拉底式子问题”(例如 “How many clips did Natalia sell in May?”),以引导思考过程。
3.2 数据划分
GSM8K 被分为训练集和测试集:
配置 | 训练集大小 | 测试集大小 |
---|---|---|
main | 7,473 个问题 | 1,319 个问题 |
socratic | 7,473 个问题 | 1,319 个问题 |
表:GSM8K 数据集划分情况
3.3 关键特点
- 高质量:问题由人类精心编写和验证。收集过程经过多轮一致性检查,估计错误或模糊问题的比例较低(约 1.7%)。
- 多步推理:每个问题需要 2 到 8 个步骤才能解决,无法通过简单模式匹配或猜测完成。
- 基础运算:解决方案主要涉及基本的算术运算(加、减、乘、除)。
- 自然语言:问题和答案均采用自然语言形式,更符合语言模型的处理方式,并有望揭示模型的“思维过程”。
- 语言多样性:问题的表述方式具有多样性,避免了模板化。
4 数据集创建与质量保障
GSM8K 的创建过程确保了其高质量和可靠性:
- 初始收集:通过在 Upwork 上雇佣自由职业者,收集了 1000 个问题及其自然语言解决方案。
- 规模扩展:与专业数据标注平台 Surge AI 合作,扩大了数据规模。
- 验证与清洗:完成收集后,要求另一批标注人员重新解答所有问题(原作者不解答自己的问题),并检查答案的一致性。存在分歧的问题会被修正或丢弃。
- 二次检查:对一部分问题进行了第二轮一致性检查,发现仅有约 1.7% 的问题仍存在分歧并被处理。
5 GSM8K 的重要性与影响
GSM8K 已成为评估大语言模型数学推理能力的核心基准之一🗂️。它在推动相关技术进步中发挥了关键作用:
5.1 推动推理技术发展
在 GSM8K 上测试早期的大型语言模型(如 GPT-3)时,性能并不理想。最初的实验表明,即使是大模型也难以在该数据集上取得高分。这一挑战催生了许多重要的推理技术:
- 思维链(Chain-of-Thought, CoT):该技术引导模型生成一系列推理步骤后再给出最终答案,显著提升了模型在 GSM8K 上的表现。例如,将 GPT-3 在 GSM8K 上的准确率从 17.9% 提升至 58.1%。
- 自洽性(Self-Consistency) & 验证器(Verifiers):通过多数投票或训练单独的验证模型来从多个候选答案中选择最佳答案,进一步提升性能。
- 从最少到最多提示(Least-to-Most Prompting):将复杂问题分解成子问题逐步解决,提高了模型解决需要比示例更多步骤的问题的能力。
5.2 评估模型性能的标杆
GSM8K 为比较不同模型的数学推理能力提供了一个公正、可量化的标尺📊。许多研究都报告其模型在 GSM8K 上的性能,例如:
- Orca-Math(7B参数):通过高质量的合成数据和迭代学习,在 GSM8K 上达到了 86.81% 的惊人准确率,超越了诸多参数量更大的模型。
- PaLM(540B参数):在思维链提示下,也在该数据集上取得了优异性能。
5.3 揭示模型局限性
GSM8K 也有助于揭示模型的局限性。例如,一些研究发现,模型可能在GSM8K上表现良好,但在形式更严谨或领域不同的数学问题(如基于数学竞赛题目的MATH数据集)上却表现不佳。这表明仅凭GSM8K可能无法全面评估模型所有的数学推理能力,需要多维度评估。
6 如何在研究中使用 GSM8K
6.1 获取数据集
GSM8K 数据集采用 MIT 许可证,可以在 Hugging Face 等平台免费获取和使用:
- Hugging Face 地址:https://huggingface.co/datasets/openai/gsm8k
6.2 评估指标
最常用的评估指标是准确率(Accuracy),即模型给出的最终答案与标准答案完全匹配的比例。由于答案格式规范(####
后接数字),可以很方便地自动提取和比较最终答案。
6.3 挑战与注意事项
- 答案提取:需确保从模型的输出中准确提取出最终答案(解析
####
后的数字)。 - 评估逻辑:评估的是最终答案的正确性,而非推理过程的每一步(尽管错误的推理几乎不可能得到正确答案)。
- 提示工程:不同的提示方法(如Few-Shot, CoT, Least-to-Most)会对性能产生巨大影响,在比较模型时需考虑此因素。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!