当前位置: 首页 > wzjs >正文

网站 兼容性微信附近人推广引流

网站 兼容性,微信附近人推广引流,安徽建设工程网,wordpress占用资源GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结GPT 4.1 (2025.4.14) OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。 一、Instruction Following(指令跟随&#xff0…

GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结


GPT 4.1 (2025.4.14)

OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。

一、Instruction Following(指令跟随)相关 benchmark(共7个)

Benchmark作用
Internal API instruction following (hard)测试模型在复杂、分步骤指令下的表现
MultiChallenge多轮对话中正确提取历史信息
MultiChallenge (o3-mini grader)更严谨的版本,用更强的评估器判断模型表现
COLLIE包含分类、排序、多步执行等多种跟随场景
IFEval检验模型是否遵守格式/长度/内容限制等指令
Multi-IF类似 IFEval,但更复杂
OpenAI Instruction Categories非正式测试,分类说明模型在哪些类型指令上更强(格式、否定、排序等)

二、Coding(编程)相关 benchmark(共5个)

Benchmark作用
SWE-bench Verified真实代码库补丁生成能力(给代码库 + issue,产出能通过测试的补丁)
SWE-Lancer基于 freelancer 任务的模型“收入”评估,越强模型接更多活
SWE-Lancer (IC-Diamond)上述子集,任务更稀有但高价值
Aider polyglot (whole)多语言代码编辑完整文件能力
Aider polyglot (diff)多语言代码编辑,仅生成改动部分能力

三、Academic Knowledge(学术常识)相关 benchmark(共4个)

Benchmark作用
AIME '24美国数学竞赛题目
GPQA Diamond专业级常识问答
MMLU多学科专业知识测试
Multilingual MMLU多语言 MMLU 测试

四、Long Context(长上下文理解)相关 benchmark(共7个)

Benchmark作用
Needle-in-a-haystack找出上下文中的“针”,测试大窗口信息检索能力
OpenAI-MRCR多轮消歧任务,在长上下文中区分多个请求并提取对应输出
Graphwalks BFS <128k / >128k长上下文中的图搜索任务,测试推理和跳跃能力
Graphwalks Parents <128k / >128k类似任务,换成父节点推理
Internal OpenAI eval(图未命名)展示 needle accuracy 随上下文长度变化

五、Vision(图像理解)相关 benchmark(共4个)

Benchmark作用
MMMU图表、地图、图像混合问答
MathVista数学图形理解
CharXiv-Reasoning科研图表内容理解
CharXiv-Details更精细的科研图表信息提取

六、Function Calling(函数调用)相关 benchmark(共3个)

Benchmark作用
ComplexFuncBench复杂函数结构调用能力
TauBench Airline多轮函数调用(航空业务)
TauBench Retail多轮函数调用(零售业务)
合计
类型个数
指令跟随7
编程能力5
学术知识4
长上下文7
视觉理解4
函数调用3
总计30(文章中内容提及为 34,部分可能为子集/分组重复统计)

GPT 4.5 (2025.2.27)

官方介绍中提到了 8 个 benchmark

通用知识与推理类

Benchmark用途衡量指标
SimpleQA测试模型对简单但具有挑战性的事实性问题的回答能力。准确率和幻觉率
GPQA (Graduate-Level Physics Questions Answering)评估模型解决高级物理问题的能力。科学推理和事实准确性
AIME ‘24测试模型在高中奥数级别数学题上的解题能力。数学推理
MMMLU评估模型在多领域、多语言下的理解能力。覆盖上百个学科

多模态与跨语言类

Benchmark用途特点
MMMU测试模型对图文混合输入的理解与回答能力强调视觉+语言联合推理

编程与软件开发类

Benchmark用途特点
SWE-Bench Verified衡量模型在修复真实代码问题(bug fix)方面的准确率。需要代码阅读、理解和修改能力
SWE-Lancer Diamond评估模型在解决真实世界代码任务中的实际表现。得分以“$金额”表示

创意与人类评估类(间接指标)

Benchmark用途说明
Human preference scores衡量模型在日常问题、专业问题和创意写作中的表现是否被人类偏好不属于标准学术 benchmark

DeepSeek Prover R2 (2025.4.30)

Benchmark 名称作用(评估内容)
MiniF2F主流评测集之一,测试 Lean 3 中模型的定理证明能力
ProofNet测试模型在 Lean 4 中处理自然语言定理和形式化语言间转换的能力
MathProofBench基于 GPT-4 构建的大规模形式化数学 benchmark,用于评估多步骤推理
LeanDojo用于构建 Lean 形式化环境,支持与 Lean 交互,可用于数据生成与强化学习等任务
Baldur面向欧几里得几何定理的基准集,专注几何推理
MetaMath包含海量形式化证明(元数学框架),常用于数学证明训练
HolStep提供 HOL Light 定理与证明对,评估定理选择和步骤推荐能力
TPTP自动定理证明社区常用的 benchmark,侧重一阶逻辑问题
PISA benchmark关注于交互式定理证明(ITP)的基准
Lean-Gym形式化交互环境,用于模拟 Lean 用户操作场景,用于训练强化学习模型

附:ChatGPT 的总结 - LLM 主流 Benchmark 分类

1. 基础能力类

Benchmark用途示例任务
MMLU多任务理解中学到大学的知识问答,覆盖57个科目
HELLSWAG常识推理句子补全,测试语境下的常识判断
ARC小学科学题测试多步逻辑推理能力

2. 推理与数学类

Benchmark用途示例任务
GSM8K小学数学题步骤式加减乘除推理
MATH高中奥数题高难度数学推理
DROP复杂阅读理解+数值运算从段落中提取并运算信息

3. 多轮对话与指令跟随

Benchmark用途示例任务
AlpacaEval / MT-Bench指令跟随能力评估让模型完成用户指令并评分
Vicuna Eval对话质量评估模拟人类对话打分
Chatbot Arena实时互评排名网民对两模型的盲评投票

4. 多语言/跨文化

Benchmark用途示例任务
XWinograd跨语言共指消解在多语言中理解代词所指对象
XCOPA多语言因果推理判断事件之间的因果关系

5. 类人行为评估

Benchmark用途示例任务
TuringBench类人表现评估情感识别、信任判断、道德选择等
BIG-Bench多种创造性任务集合推理、类比、创造性写作等,覆盖200+任务

附 2:类人行为评测榜单(ChatGPT 的回答)

Benchmark类人维度是否结构化评分备注
MT-Bench多轮对话、个性表达LLM 社交互动能力
HELMe Bench道德、人格、社会行为类人格建模
BBH(Big Bench Hard)直觉、常识推理、心理来自 BIG-Bench 子集
MoralBench道德判断、伦理推理跨文化伦理比较
TOMI心理理论(ToM)拟人认知能力
HumanEval(部分任务)合作性、指令遵循性⚠️间接涉及类人行为
RoleplayBench(如CharacterBench)行为一致性、角色认知⚠️部分人工评分RPG 任务中角色建模能力

http://www.dtcms.com/wzjs/526899.html

相关文章:

  • 旅游网站官网seo技术网
  • 上海营销网站建设seo在中国
  • 玩客云做网站百度竞价排名广告
  • 建设企业网站登录全国疫情最新消息
  • wordpress it模板seo营销技巧培训班
  • 河南省建设银行网站seo型网站
  • 宝安做网站公司乐云seo360优化大师安卓下载
  • 武汉哪里做网站好今日小说排行榜
  • 甘肃网站建设百度关键词优化软件网站
  • 济南直销网站制作搜索排名怎么做
  • 管理软件开发专业排名优化工具
  • 网站建设保密条款百度免费推广怎么做
  • 阿里云怎么创建网站温州seo优化公司
  • 做IP授权的一般看什么网站网络推广计划方案
  • 做网站广告词seo官网优化
  • saas平台是干嘛的绍兴seo外包
  • 西安哪家做网站公司好竞价推广营销
  • 网站没有关键词收录在线查询网站收录
  • 不同网站建设特点百度关键词seo排名软件
  • 无锡网站建设技术外包百度关键词排名推广
  • 网站引用百度地图教育培训机构十大排名
  • 交友网站怎样做做推广怎么赚钱
  • 网站忘记备案百度人工服务24小时电话
  • 中网站建设宁波seo关键词培训
  • 郑州服装 网站建设seo研究中心vip教程
  • 做网站的流程是怎么样的免费发布推广信息的平台
  • 无为县建设局网站信息流优化师发展前景
  • 电商网站功能模块广州百度推广开户
  • 网站外挂如何做重庆关键词优化平台
  • 广水网站定制河南省干部任免最新公示