当前位置: 首页 > wzjs >正文

销售网站平台搭建百度竞价托管费用

销售网站平台搭建,百度竞价托管费用,做视频找素材的网站有哪些,wordpress 最新区块编辑GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结GPT 4.1 (2025.4.14) OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。 一、Instruction Following(指令跟随&#xff0…

GPT 4.1、GPT 4.5、DeepSeek、Gemini 和 Anthropic 模型 Benchmark 总结


GPT 4.1 (2025.4.14)

OpenAI 使用了 34 个 benchmark,涵盖编码、指令跟随、长上下文、多模态视觉、函数调用、学术知识等多个维度。

一、Instruction Following(指令跟随)相关 benchmark(共7个)

Benchmark作用
Internal API instruction following (hard)测试模型在复杂、分步骤指令下的表现
MultiChallenge多轮对话中正确提取历史信息
MultiChallenge (o3-mini grader)更严谨的版本,用更强的评估器判断模型表现
COLLIE包含分类、排序、多步执行等多种跟随场景
IFEval检验模型是否遵守格式/长度/内容限制等指令
Multi-IF类似 IFEval,但更复杂
OpenAI Instruction Categories非正式测试,分类说明模型在哪些类型指令上更强(格式、否定、排序等)

二、Coding(编程)相关 benchmark(共5个)

Benchmark作用
SWE-bench Verified真实代码库补丁生成能力(给代码库 + issue,产出能通过测试的补丁)
SWE-Lancer基于 freelancer 任务的模型“收入”评估,越强模型接更多活
SWE-Lancer (IC-Diamond)上述子集,任务更稀有但高价值
Aider polyglot (whole)多语言代码编辑完整文件能力
Aider polyglot (diff)多语言代码编辑,仅生成改动部分能力

三、Academic Knowledge(学术常识)相关 benchmark(共4个)

Benchmark作用
AIME '24美国数学竞赛题目
GPQA Diamond专业级常识问答
MMLU多学科专业知识测试
Multilingual MMLU多语言 MMLU 测试

四、Long Context(长上下文理解)相关 benchmark(共7个)

Benchmark作用
Needle-in-a-haystack找出上下文中的“针”,测试大窗口信息检索能力
OpenAI-MRCR多轮消歧任务,在长上下文中区分多个请求并提取对应输出
Graphwalks BFS <128k / >128k长上下文中的图搜索任务,测试推理和跳跃能力
Graphwalks Parents <128k / >128k类似任务,换成父节点推理
Internal OpenAI eval(图未命名)展示 needle accuracy 随上下文长度变化

五、Vision(图像理解)相关 benchmark(共4个)

Benchmark作用
MMMU图表、地图、图像混合问答
MathVista数学图形理解
CharXiv-Reasoning科研图表内容理解
CharXiv-Details更精细的科研图表信息提取

六、Function Calling(函数调用)相关 benchmark(共3个)

Benchmark作用
ComplexFuncBench复杂函数结构调用能力
TauBench Airline多轮函数调用(航空业务)
TauBench Retail多轮函数调用(零售业务)
合计
类型个数
指令跟随7
编程能力5
学术知识4
长上下文7
视觉理解4
函数调用3
总计30(文章中内容提及为 34,部分可能为子集/分组重复统计)

GPT 4.5 (2025.2.27)

官方介绍中提到了 8 个 benchmark

通用知识与推理类

Benchmark用途衡量指标
SimpleQA测试模型对简单但具有挑战性的事实性问题的回答能力。准确率和幻觉率
GPQA (Graduate-Level Physics Questions Answering)评估模型解决高级物理问题的能力。科学推理和事实准确性
AIME ‘24测试模型在高中奥数级别数学题上的解题能力。数学推理
MMMLU评估模型在多领域、多语言下的理解能力。覆盖上百个学科

多模态与跨语言类

Benchmark用途特点
MMMU测试模型对图文混合输入的理解与回答能力强调视觉+语言联合推理

编程与软件开发类

Benchmark用途特点
SWE-Bench Verified衡量模型在修复真实代码问题(bug fix)方面的准确率。需要代码阅读、理解和修改能力
SWE-Lancer Diamond评估模型在解决真实世界代码任务中的实际表现。得分以“$金额”表示

创意与人类评估类(间接指标)

Benchmark用途说明
Human preference scores衡量模型在日常问题、专业问题和创意写作中的表现是否被人类偏好不属于标准学术 benchmark

DeepSeek Prover R2 (2025.4.30)

Benchmark 名称作用(评估内容)
MiniF2F主流评测集之一,测试 Lean 3 中模型的定理证明能力
ProofNet测试模型在 Lean 4 中处理自然语言定理和形式化语言间转换的能力
MathProofBench基于 GPT-4 构建的大规模形式化数学 benchmark,用于评估多步骤推理
LeanDojo用于构建 Lean 形式化环境,支持与 Lean 交互,可用于数据生成与强化学习等任务
Baldur面向欧几里得几何定理的基准集,专注几何推理
MetaMath包含海量形式化证明(元数学框架),常用于数学证明训练
HolStep提供 HOL Light 定理与证明对,评估定理选择和步骤推荐能力
TPTP自动定理证明社区常用的 benchmark,侧重一阶逻辑问题
PISA benchmark关注于交互式定理证明(ITP)的基准
Lean-Gym形式化交互环境,用于模拟 Lean 用户操作场景,用于训练强化学习模型

附:ChatGPT 的总结 - LLM 主流 Benchmark 分类

1. 基础能力类

Benchmark用途示例任务
MMLU多任务理解中学到大学的知识问答,覆盖57个科目
HELLSWAG常识推理句子补全,测试语境下的常识判断
ARC小学科学题测试多步逻辑推理能力

2. 推理与数学类

Benchmark用途示例任务
GSM8K小学数学题步骤式加减乘除推理
MATH高中奥数题高难度数学推理
DROP复杂阅读理解+数值运算从段落中提取并运算信息

3. 多轮对话与指令跟随

Benchmark用途示例任务
AlpacaEval / MT-Bench指令跟随能力评估让模型完成用户指令并评分
Vicuna Eval对话质量评估模拟人类对话打分
Chatbot Arena实时互评排名网民对两模型的盲评投票

4. 多语言/跨文化

Benchmark用途示例任务
XWinograd跨语言共指消解在多语言中理解代词所指对象
XCOPA多语言因果推理判断事件之间的因果关系

5. 类人行为评估

Benchmark用途示例任务
TuringBench类人表现评估情感识别、信任判断、道德选择等
BIG-Bench多种创造性任务集合推理、类比、创造性写作等,覆盖200+任务

附 2:类人行为评测榜单(ChatGPT 的回答)

Benchmark类人维度是否结构化评分备注
MT-Bench多轮对话、个性表达LLM 社交互动能力
HELMe Bench道德、人格、社会行为类人格建模
BBH(Big Bench Hard)直觉、常识推理、心理来自 BIG-Bench 子集
MoralBench道德判断、伦理推理跨文化伦理比较
TOMI心理理论(ToM)拟人认知能力
HumanEval(部分任务)合作性、指令遵循性⚠️间接涉及类人行为
RoleplayBench(如CharacterBench)行为一致性、角色认知⚠️部分人工评分RPG 任务中角色建模能力

http://www.dtcms.com/wzjs/149641.html

相关文章:

  • 洛阳鼎和电力建设有限公司网站2023重大新闻事件10条
  • 快速网站排名汉狮公司seo技术专员招聘
  • 非遗网站建设目的国家卫健委每日疫情报告
  • 唐山模板网站建设建站abc官方网站
  • dw做aspx网站怎么做app推广和宣传
  • 网站标题应怎设置网站页面优化方法
  • 成都系统网站建设qq群排名优化软件购买
  • 做互联网网站待遇5月疫情最新消息
  • wordpress 主题没有样式表网络排名优化软件
  • 在线营业执照办理太原百度快速优化
  • 部门网站建设总结手机百度快照
  • 如何推广自己的外贸网站互联网广告推广好做吗
  • 网站注册免费永久查权重的软件
  • 网站域名已经被绑定100个经典创意营销方案
  • 网络程序河北seo人员
  • 网站建设7个基十大接单平台
  • php 网站发布建站seo推广
  • 怎么看网站有没有做301网站优化推广培训
  • 网站建设待遇最佳磁力吧ciliba
  • 做外贸 是否需要做中文网站949公社招聘信息
  • 邯郸建设网站的公司软件外包网
  • 我想找个人做网站品牌广告和效果广告的区别
  • 客服外包服务提升seo排名平台
  • 红十字会三合一网站建设方案专业做网站官网
  • 专门做985招聘信息的网站成人用品哪里进货好
  • 科技服务网站建设方案电商大数据查询平台免费
  • 顺德人做多上哪个网站百度搜索推广开户
  • 微企点自助建站系统电商运营推广
  • 万江网站建设公司今日新闻最新10条
  • 外贸联系网站网络营销的优势有哪些