当前位置: 首页 > news >正文

常用 Benchmark 总结-GPT 4.1、GPT 4.5、DeepSeek模型

GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结


GPT 4.1 (2025.4.14)

OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。

一、Instruction Following(指令跟随)相关 benchmark(共7个)

Benchmark作用
Internal API instruction following (hard)测试模型在复杂、分步骤指令下的表现
MultiChallenge多轮对话中正确提取历史信息
MultiChallenge (o3-mini grader)更严谨的版本,用更强的评估器判断模型表现
COLLIE包含分类、排序、多步执行等多种跟随场景
IFEval检验模型是否遵守格式/长度/内容限制等指令
Multi-IF类似 IFEval,但更复杂
OpenAI Instruction Categories非正式测试,分类说明模型在哪些类型指令上更强(格式、否定、排序等)

二、Coding(编程)相关 benchmark(共5个)

Benchmark作用
SWE-bench Verified真实代码库补丁生成能力(给代码库 + issue,产出能通过测试的补丁)
SWE-Lancer基于 freelancer 任务的模型“收入”评估,越强模型接更多活
SWE-Lancer (IC-Diamond)上述子集,任务更稀有但高价值
Aider polyglot (whole)多语言代码编辑完整文件能力
Aider polyglot (diff)多语言代码编辑,仅生成改动部分能力

三、Academic Knowledge(学术常识)相关 benchmark(共4个)

Benchmark作用
AIME '24美国数学竞赛题目
GPQA Diamond专业级常识问答
MMLU多学科专业知识测试
Multilingual MMLU多语言 MMLU 测试

四、Long Context(长上下文理解)相关 benchmark(共7个)

Benchmark作用
Needle-in-a-haystack找出上下文中的“针”,测试大窗口信息检索能力
OpenAI-MRCR多轮消歧任务,在长上下文中区分多个请求并提取对应输出
Graphwalks BFS <128k / >128k长上下文中的图搜索任务,测试推理和跳跃能力
Graphwalks Parents <128k / >128k类似任务,换成父节点推理
Internal OpenAI eval(图未命名)展示 needle accuracy 随上下文长度变化

五、Vision(图像理解)相关 benchmark(共4个)

Benchmark作用
MMMU图表、地图、图像混合问答
MathVista数学图形理解
CharXiv-Reasoning科研图表内容理解
CharXiv-Details更精细的科研图表信息提取

六、Function Calling(函数调用)相关 benchmark(共3个)

Benchmark作用
ComplexFuncBench复杂函数结构调用能力
TauBench Airline多轮函数调用(航空业务)
TauBench Retail多轮函数调用(零售业务)
合计
类型个数
指令跟随7
编程能力5
学术知识4
长上下文7
视觉理解4
函数调用3
总计30(文章中内容提及为 34,部分可能为子集/分组重复统计)

GPT 4.5 (2025.2.27)

官方介绍中提到了 8 个 benchmark

通用知识与推理类

Benchmark用途衡量指标
SimpleQA测试模型对简单但具有挑战性的事实性问题的回答能力。准确率和幻觉率
GPQA (Graduate-Level Physics Questions Answering)评估模型解决高级物理问题的能力。科学推理和事实准确性
AIME ‘24测试模型在高中奥数级别数学题上的解题能力。数学推理
MMMLU评估模型在多领域、多语言下的理解能力。覆盖上百个学科

多模态与跨语言类

Benchmark用途特点
MMMU测试模型对图文混合输入的理解与回答能力强调视觉+语言联合推理

编程与软件开发类

Benchmark用途特点
SWE-Bench Verified衡量模型在修复真实代码问题(bug fix)方面的准确率。需要代码阅读、理解和修改能力
SWE-Lancer Diamond评估模型在解决真实世界代码任务中的实际表现。得分以“$金额”表示

创意与人类评估类(间接指标)

Benchmark用途说明
Human preference scores衡量模型在日常问题、专业问题和创意写作中的表现是否被人类偏好不属于标准学术 benchmark

DeepSeek Prover R2 (2025.4.30)

Benchmark 名称作用(评估内容)
MiniF2F主流评测集之一,测试 Lean 3 中模型的定理证明能力
ProofNet测试模型在 Lean 4 中处理自然语言定理和形式化语言间转换的能力
MathProofBench基于 GPT-4 构建的大规模形式化数学 benchmark,用于评估多步骤推理
LeanDojo用于构建 Lean 形式化环境,支持与 Lean 交互,可用于数据生成与强化学习等任务
Baldur面向欧几里得几何定理的基准集,专注几何推理
MetaMath包含海量形式化证明(元数学框架),常用于数学证明训练
HolStep提供 HOL Light 定理与证明对,评估定理选择和步骤推荐能力
TPTP自动定理证明社区常用的 benchmark,侧重一阶逻辑问题
PISA benchmark关注于交互式定理证明(ITP)的基准
Lean-Gym形式化交互环境,用于模拟 Lean 用户操作场景,用于训练强化学习模型

附:ChatGPT 的总结 - LLM 主流 Benchmark 分类

1. 基础能力类

Benchmark用途示例任务
MMLU多任务理解中学到大学的知识问答,覆盖57个科目
HELLSWAG常识推理句子补全,测试语境下的常识判断
ARC小学科学题测试多步逻辑推理能力

2. 推理与数学类

Benchmark用途示例任务
GSM8K小学数学题步骤式加减乘除推理
MATH高中奥数题高难度数学推理
DROP复杂阅读理解+数值运算从段落中提取并运算信息

3. 多轮对话与指令跟随

Benchmark用途示例任务
AlpacaEval / MT-Bench指令跟随能力评估让模型完成用户指令并评分
Vicuna Eval对话质量评估模拟人类对话打分
Chatbot Arena实时互评排名网民对两模型的盲评投票

4. 多语言/跨文化

Benchmark用途示例任务
XWinograd跨语言共指消解在多语言中理解代词所指对象
XCOPA多语言因果推理判断事件之间的因果关系

5. 类人行为评估

Benchmark用途示例任务
TuringBench类人表现评估情感识别、信任判断、道德选择等
BIG-Bench多种创造性任务集合推理、类比、创造性写作等,覆盖200+任务

附 2:类人行为评测榜单(ChatGPT 的回答)

Benchmark类人维度是否结构化评分备注
MT-Bench多轮对话、个性表达LLM 社交互动能力
HELMe Bench道德、人格、社会行为类人格建模
BBH(Big Bench Hard)直觉、常识推理、心理来自 BIG-Bench 子集
MoralBench道德判断、伦理推理跨文化伦理比较
TOMI心理理论(ToM)拟人认知能力
HumanEval(部分任务)合作性、指令遵循性⚠️间接涉及类人行为
RoleplayBench(如CharacterBench)行为一致性、角色认知⚠️部分人工评分RPG 任务中角色建模能力

http://www.dtcms.com/a/282110.html

相关文章:

  • 【游戏引擎之路】登神长阶(十七):Humanoid动画——长风破浪会有时,直挂云帆济沧海
  • 联网工人安全解决方案:技术赋能下的安全新范式
  • Django REST Framework 入门指南:从 0 到 1 实现 RESTful API
  • 【LLM】OpenRouter调用Anthropic Claude上下文缓存处理
  • cudaOccupancyMaxActiveBlocksPerMultiprocessor配置内核的线程块大小
  • Linux运维新手的修炼手扎之第18天
  • 二刷 黑马点评 分布式锁-redission
  • 【芯片设计中的WDT IP:守护系统安全的电子警犬】
  • HDFS基本操作训练(创建、上传、下载、删除)
  • CSS面试题及详细答案140道之(21-40)
  • 智租换电与中国电信达成战略合作!共筑数字能源新基建
  • LeetCode|Day15|125. 验证回文串|Python刷题笔记
  • GaussDB 预写日志回收参数设置
  • Uniapp中双弹窗为什么无法显示?
  • Java虚拟机——JVM
  • uniapp各端通过webview实现互相通信
  • UniApp 多端人脸认证图片上传实现
  • AI Agent:重构智能边界的终极形态——从技术内核到未来图景全景解析
  • uniapp写好的弹窗组件
  • 【uni-ui】hbuilderx的uniapp 配置 -小程序左滑出现删除等功能
  • kafka3.6下载安装(传统架构/KRaft模式)+实例测试
  • uniapp小程序实现地图多个标记点
  • 《设计模式之禅》笔记摘录 - 7.中介者模式
  • C#中Lambda表达式与=>运算符
  • C++:Vector类核心技术解析及其模拟实现
  • 北京-4年功能测试2年空窗-报培训班学测开-第五十二天
  • 印章标注,支持圆形、方形印章,OCR图片识别
  • 可道云最新版1.60.02发布了,新增免费内网穿透插件
  • 041_多接口实现与冲突解决
  • DuckDB 高效导入 IPv6 地址数据的实践与性能对比