GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结
GPT 4.1 (2025.4.14)
OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。
一、Instruction Following(指令跟随)相关 benchmark(共7个)
Benchmark | 作用 |
---|
Internal API instruction following (hard) | 测试模型在复杂、分步骤指令下的表现 |
MultiChallenge | 多轮对话中正确提取历史信息 |
MultiChallenge (o3-mini grader) | 更严谨的版本,用更强的评估器判断模型表现 |
COLLIE | 包含分类、排序、多步执行等多种跟随场景 |
IFEval | 检验模型是否遵守格式/长度/内容限制等指令 |
Multi-IF | 类似 IFEval,但更复杂 |
OpenAI Instruction Categories | 非正式测试,分类说明模型在哪些类型指令上更强(格式、否定、排序等) |
二、Coding(编程)相关 benchmark(共5个)
Benchmark | 作用 |
---|
SWE-bench Verified | 真实代码库补丁生成能力(给代码库 + issue,产出能通过测试的补丁) |
SWE-Lancer | 基于 freelancer 任务的模型“收入”评估,越强模型接更多活 |
SWE-Lancer (IC-Diamond) | 上述子集,任务更稀有但高价值 |
Aider polyglot (whole) | 多语言代码编辑完整文件能力 |
Aider polyglot (diff) | 多语言代码编辑,仅生成改动部分能力 |
三、Academic Knowledge(学术常识)相关 benchmark(共4个)
Benchmark | 作用 |
---|
AIME '24 | 美国数学竞赛题目 |
GPQA Diamond | 专业级常识问答 |
MMLU | 多学科专业知识测试 |
Multilingual MMLU | 多语言 MMLU 测试 |
四、Long Context(长上下文理解)相关 benchmark(共7个)
Benchmark | 作用 |
---|
Needle-in-a-haystack | 找出上下文中的“针”,测试大窗口信息检索能力 |
OpenAI-MRCR | 多轮消歧任务,在长上下文中区分多个请求并提取对应输出 |
Graphwalks BFS <128k / >128k | 长上下文中的图搜索任务,测试推理和跳跃能力 |
Graphwalks Parents <128k / >128k | 类似任务,换成父节点推理 |
Internal OpenAI eval(图未命名) | 展示 needle accuracy 随上下文长度变化 |
五、Vision(图像理解)相关 benchmark(共4个)
Benchmark | 作用 |
---|
MMMU | 图表、地图、图像混合问答 |
MathVista | 数学图形理解 |
CharXiv-Reasoning | 科研图表内容理解 |
CharXiv-Details | 更精细的科研图表信息提取 |
六、Function Calling(函数调用)相关 benchmark(共3个)
Benchmark | 作用 |
---|
ComplexFuncBench | 复杂函数结构调用能力 |
TauBench Airline | 多轮函数调用(航空业务) |
TauBench Retail | 多轮函数调用(零售业务) |
合计
类型 | 个数 |
---|
指令跟随 | 7 |
编程能力 | 5 |
学术知识 | 4 |
长上下文 | 7 |
视觉理解 | 4 |
函数调用 | 3 |
总计 | 30(文章中内容提及为 34,部分可能为子集/分组重复统计) |
GPT 4.5 (2025.2.27)
官方介绍中提到了 8 个 benchmark。
通用知识与推理类
Benchmark | 用途 | 衡量指标 |
---|
SimpleQA | 测试模型对简单但具有挑战性的事实性问题的回答能力。 | 准确率和幻觉率 |
GPQA (Graduate-Level Physics Questions Answering) | 评估模型解决高级物理问题的能力。 | 科学推理和事实准确性 |
AIME ‘24 | 测试模型在高中奥数级别数学题上的解题能力。 | 数学推理 |
MMMLU | 评估模型在多领域、多语言下的理解能力。 | 覆盖上百个学科 |
多模态与跨语言类
Benchmark | 用途 | 特点 |
---|
MMMU | 测试模型对图文混合输入的理解与回答能力 | 强调视觉+语言联合推理 |
编程与软件开发类
Benchmark | 用途 | 特点 |
---|
SWE-Bench Verified | 衡量模型在修复真实代码问题(bug fix)方面的准确率。 | 需要代码阅读、理解和修改能力 |
SWE-Lancer Diamond | 评估模型在解决真实世界代码任务中的实际表现。 | 得分以“$金额”表示 |
创意与人类评估类(间接指标)
Benchmark | 用途 | 说明 |
---|
Human preference scores | 衡量模型在日常问题、专业问题和创意写作中的表现是否被人类偏好 | 不属于标准学术 benchmark |
DeepSeek Prover R2 (2025.4.30)
Benchmark 名称 | 作用(评估内容) |
---|
MiniF2F | 主流评测集之一,测试 Lean 3 中模型的定理证明能力 |
ProofNet | 测试模型在 Lean 4 中处理自然语言定理和形式化语言间转换的能力 |
MathProofBench | 基于 GPT-4 构建的大规模形式化数学 benchmark,用于评估多步骤推理 |
LeanDojo | 用于构建 Lean 形式化环境,支持与 Lean 交互,可用于数据生成与强化学习等任务 |
Baldur | 面向欧几里得几何定理的基准集,专注几何推理 |
MetaMath | 包含海量形式化证明(元数学框架),常用于数学证明训练 |
HolStep | 提供 HOL Light 定理与证明对,评估定理选择和步骤推荐能力 |
TPTP | 自动定理证明社区常用的 benchmark,侧重一阶逻辑问题 |
PISA benchmark | 关注于交互式定理证明(ITP)的基准 |
Lean-Gym | 形式化交互环境,用于模拟 Lean 用户操作场景,用于训练强化学习模型 |
附:ChatGPT 的总结 - LLM 主流 Benchmark 分类
1. 基础能力类
Benchmark | 用途 | 示例任务 |
---|
MMLU | 多任务理解 | 中学到大学的知识问答,覆盖57个科目 |
HELLSWAG | 常识推理 | 句子补全,测试语境下的常识判断 |
ARC | 小学科学题 | 测试多步逻辑推理能力 |
2. 推理与数学类
Benchmark | 用途 | 示例任务 |
---|
GSM8K | 小学数学题 | 步骤式加减乘除推理 |
MATH | 高中奥数题 | 高难度数学推理 |
DROP | 复杂阅读理解+数值运算 | 从段落中提取并运算信息 |
3. 多轮对话与指令跟随
Benchmark | 用途 | 示例任务 |
---|
AlpacaEval / MT-Bench | 指令跟随能力评估 | 让模型完成用户指令并评分 |
Vicuna Eval | 对话质量评估 | 模拟人类对话打分 |
Chatbot Arena | 实时互评排名 | 网民对两模型的盲评投票 |
4. 多语言/跨文化
Benchmark | 用途 | 示例任务 |
---|
XWinograd | 跨语言共指消解 | 在多语言中理解代词所指对象 |
XCOPA | 多语言因果推理 | 判断事件之间的因果关系 |
5. 类人行为评估
Benchmark | 用途 | 示例任务 |
---|
TuringBench | 类人表现评估 | 情感识别、信任判断、道德选择等 |
BIG-Bench | 多种创造性任务集合 | 推理、类比、创造性写作等,覆盖200+任务 |
附 2:类人行为评测榜单(ChatGPT 的回答)
Benchmark | 类人维度 | 是否结构化评分 | 备注 |
---|
MT-Bench | 多轮对话、个性表达 | ✅ | LLM 社交互动能力 |
HELMe Bench | 道德、人格、社会行为 | ✅ | 类人格建模 |
BBH(Big Bench Hard) | 直觉、常识推理、心理 | ✅ | 来自 BIG-Bench 子集 |
MoralBench | 道德判断、伦理推理 | ✅ | 跨文化伦理比较 |
TOMI | 心理理论(ToM) | ✅ | 拟人认知能力 |
HumanEval(部分任务) | 合作性、指令遵循性 | ⚠️ | 间接涉及类人行为 |
RoleplayBench(如CharacterBench) | 行为一致性、角色认知 | ⚠️部分人工评分 | RPG 任务中角色建模能力 |