当前位置：首页 > news >正文

OpenAI发布PaperBench，AI代理复现研究能力面临新考验

news 2025/10/9 9:30:09

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench，这是一个评估AI智能体复现前沿AI研究能力的基准。该基准要求AI代理从头开始复现20篇2024年国际机器学习会议（ICML）中的重点和口头论文，涵盖强化学习、鲁棒性、概率方法等前沿领域。整个复现过程包括理解论文贡献、开发代码库以及成功执行实验，共包含8316个可单独评分的任务。所有评分量规均与每篇论文的作者合作开发，以确保其准确性和真实性。

在对多个前沿AI模型进行评测后，表现最佳的代理是Claude3.5Sonnet（新版本），其平均复制得分为21.0%。为了进一步验证这些结果，研究人员还邀请了多位顶尖的机器学习博士生尝试PaperBench的部分任务，结果显示，目前的AI模型尚未超越人类的复制能力。为了推动后续研究，OpenAI团队决定将其开发的代码开源，以便更多的研究者能够利用这一平台，深入探索AI代理的工程能力及其在复制AI研究方面的潜力。

http://www.dtcms.com/a/110862.html

相关文章：

Ubuntu 22.04 一键部署openManus

轻量级搜索接口技术解析：快速实现关键词检索的Java/Python实践

最新全开源码支付系统，赠送3套模板

深度学习基础

在线Pdf文档转换成Excel文档,无需下载,快速转换,批量转换

再来1章linux 系列-0. C语言过、Java半静对、Python纯动和C++对+C

代码随想录算法训练营第三十五天 | 416.分割等和子集

32、web前端开发之JavaScript(一)

烈火烹油的金三银四

2024年蓝桥杯Java B组省赛真题超详解析-类斐波那契循环数

数据结构：链表 (C++实现)

最短路径问题

Selenium 元素定位方法详解

在WSL中高效使用Windows目录下的Ollama模型

如何在最新的 Mac mini M4 机器上，让 Ollama 支持局域网访问

91%准确率预测耀斑！国家天文台推出太阳大模型“金乌”，推动天文研究进入AI时代

ngx_open_file

通义万相环境搭建推理测试

深度学习deeplearn1

Linux命令-sort

如何申请p12证书

【Kafka基础】解析Kafka核心特性：高吞吐、持久化与高可用架构

关于终端安全管理系统在社会工作中的重要作用

FastAPI与ASGI深度整合实战指南

使用Redis构架你自己的私有大模型

嘎嘎棒，ethernet ip转profinet网关锁鲜食品加工业

安装electron项目是为什么要执行postinstall script

Dubbo（30）如何配置Dubbo的服务分片？

linux0.11内核源码修仙传第十三章——进程调度大战前夕

AIO,BIO,NIO的区别(详解)