当前位置：首页 > wzjs >正文

网站兼容性微信附近人推广引流

wzjs 2025/8/29 3:07:15

网站兼容性,微信附近人推广引流,安徽建设工程网,wordpress占用资源GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结GPT 4.1 (2025.4.14) OpenAI 使用了 34 个 benchmark，涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。一、Instruction Following（指令跟随&#xff0…

GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结

GPT 4.1 (2025.4.14)

OpenAI 使用了 34 个 benchmark，涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。

一、Instruction Following（指令跟随）相关 benchmark（共7个）

Benchmark	作用
Internal API instruction following (hard)	测试模型在复杂、分步骤指令下的表现
MultiChallenge	多轮对话中正确提取历史信息
MultiChallenge (o3-mini grader)	更严谨的版本，用更强的评估器判断模型表现
COLLIE	包含分类、排序、多步执行等多种跟随场景
IFEval	检验模型是否遵守格式/长度/内容限制等指令
Multi-IF	类似 IFEval，但更复杂
OpenAI Instruction Categories	非正式测试，分类说明模型在哪些类型指令上更强（格式、否定、排序等）

二、Coding（编程）相关 benchmark（共5个）

Benchmark	作用
SWE-bench Verified	真实代码库补丁生成能力（给代码库 + issue，产出能通过测试的补丁）
SWE-Lancer	基于 freelancer 任务的模型“收入”评估，越强模型接更多活
SWE-Lancer (IC-Diamond)	上述子集，任务更稀有但高价值
Aider polyglot (whole)	多语言代码编辑完整文件能力
Aider polyglot (diff)	多语言代码编辑，仅生成改动部分能力

三、Academic Knowledge（学术常识）相关 benchmark（共4个）

Benchmark	作用
AIME '24	美国数学竞赛题目
GPQA Diamond	专业级常识问答
MMLU	多学科专业知识测试
Multilingual MMLU	多语言 MMLU 测试

四、Long Context（长上下文理解）相关 benchmark（共7个）

Benchmark	作用
Needle-in-a-haystack	找出上下文中的“针”，测试大窗口信息检索能力
OpenAI-MRCR	多轮消歧任务，在长上下文中区分多个请求并提取对应输出
Graphwalks BFS <128k / >128k	长上下文中的图搜索任务，测试推理和跳跃能力
Graphwalks Parents <128k / >128k	类似任务，换成父节点推理
Internal OpenAI eval（图未命名）	展示 needle accuracy 随上下文长度变化

五、Vision（图像理解）相关 benchmark（共4个）

Benchmark	作用
MMMU	图表、地图、图像混合问答
MathVista	数学图形理解
CharXiv-Reasoning	科研图表内容理解
CharXiv-Details	更精细的科研图表信息提取

六、Function Calling（函数调用）相关 benchmark（共3个）

Benchmark	作用
ComplexFuncBench	复杂函数结构调用能力
TauBench Airline	多轮函数调用（航空业务）
TauBench Retail	多轮函数调用（零售业务）

合计

类型	个数
指令跟随	7
编程能力	5
学术知识	4
长上下文	7
视觉理解	4
函数调用	3
总计	30（文章中内容提及为 34，部分可能为子集/分组重复统计）

GPT 4.5 (2025.2.27)

官方介绍中提到了 8 个 benchmark。

通用知识与推理类

Benchmark	用途	衡量指标
SimpleQA	测试模型对简单但具有挑战性的事实性问题的回答能力。	准确率和幻觉率
GPQA (Graduate-Level Physics Questions Answering)	评估模型解决高级物理问题的能力。	科学推理和事实准确性
AIME ‘24	测试模型在高中奥数级别数学题上的解题能力。	数学推理
MMMLU	评估模型在多领域、多语言下的理解能力。	覆盖上百个学科

多模态与跨语言类

Benchmark	用途	特点
MMMU	测试模型对图文混合输入的理解与回答能力	强调视觉+语言联合推理

编程与软件开发类

Benchmark	用途	特点
SWE-Bench Verified	衡量模型在修复真实代码问题（bug fix）方面的准确率。	需要代码阅读、理解和修改能力
SWE-Lancer Diamond	评估模型在解决真实世界代码任务中的实际表现。	得分以“$金额”表示

创意与人类评估类（间接指标）

Benchmark	用途	说明
Human preference scores	衡量模型在日常问题、专业问题和创意写作中的表现是否被人类偏好	不属于标准学术 benchmark

DeepSeek Prover R2 (2025.4.30)

Benchmark 名称	作用（评估内容）
MiniF2F	主流评测集之一，测试 Lean 3 中模型的定理证明能力
ProofNet	测试模型在 Lean 4 中处理自然语言定理和形式化语言间转换的能力
MathProofBench	基于 GPT-4 构建的大规模形式化数学 benchmark，用于评估多步骤推理
LeanDojo	用于构建 Lean 形式化环境，支持与 Lean 交互，可用于数据生成与强化学习等任务
Baldur	面向欧几里得几何定理的基准集，专注几何推理
MetaMath	包含海量形式化证明（元数学框架），常用于数学证明训练
HolStep	提供 HOL Light 定理与证明对，评估定理选择和步骤推荐能力
TPTP	自动定理证明社区常用的 benchmark，侧重一阶逻辑问题
PISA benchmark	关注于交互式定理证明（ITP）的基准
Lean-Gym	形式化交互环境，用于模拟 Lean 用户操作场景，用于训练强化学习模型

附：ChatGPT 的总结 - LLM 主流 Benchmark 分类

1. 基础能力类

Benchmark	用途	示例任务
MMLU	多任务理解	中学到大学的知识问答，覆盖57个科目
HELLSWAG	常识推理	句子补全，测试语境下的常识判断
ARC	小学科学题	测试多步逻辑推理能力

2. 推理与数学类

Benchmark	用途	示例任务
GSM8K	小学数学题	步骤式加减乘除推理
MATH	高中奥数题	高难度数学推理
DROP	复杂阅读理解+数值运算	从段落中提取并运算信息

3. 多轮对话与指令跟随

Benchmark	用途	示例任务
AlpacaEval / MT-Bench	指令跟随能力评估	让模型完成用户指令并评分
Vicuna Eval	对话质量评估	模拟人类对话打分
Chatbot Arena	实时互评排名	网民对两模型的盲评投票

4. 多语言/跨文化

Benchmark	用途	示例任务
XWinograd	跨语言共指消解	在多语言中理解代词所指对象
XCOPA	多语言因果推理	判断事件之间的因果关系

5. 类人行为评估

Benchmark	用途	示例任务
TuringBench	类人表现评估	情感识别、信任判断、道德选择等
BIG-Bench	多种创造性任务集合	推理、类比、创造性写作等，覆盖200+任务

附 2：类人行为评测榜单（ChatGPT 的回答）

Benchmark	类人维度	是否结构化评分	备注
MT-Bench	多轮对话、个性表达	✅	LLM 社交互动能力
HELMe Bench	道德、人格、社会行为	✅	类人格建模
BBH（Big Bench Hard）	直觉、常识推理、心理	✅	来自 BIG-Bench 子集
MoralBench	道德判断、伦理推理	✅	跨文化伦理比较
TOMI	心理理论（ToM）	✅	拟人认知能力
HumanEval（部分任务）	合作性、指令遵循性	⚠️	间接涉及类人行为
RoleplayBench（如CharacterBench）	行为一致性、角色认知	⚠️部分人工评分	RPG 任务中角色建模能力