OpenAI发布PaperBench,AI代理复现研究能力面临新考验
当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench,这是一个评估AI智能体复现前沿AI研究能力的基准。该基准要求AI代理从头开始复现20篇2024年国际机器学习会议(ICML)中的重点和口头论文,涵盖强化学习、鲁棒性、概率方法等前沿领域。整个复现过程包括理解论文贡献、开发代码库以及成功执行实验,共包含8316个可单独评分的任务。所有评分量规均与每篇论文的作者合作开发,以确保其准确性和真实性。
在对多个前沿AI模型进行评测后,表现最佳的代理是Claude3.5Sonnet(新版本),其平均复制得分为21.0%。为了进一步验证这些结果,研究人员还邀请了多位顶尖的机器学习博士生尝试PaperBench的部分任务,结果显示,目前的AI模型尚未超越人类的复制能力。为了推动后续研究,OpenAI团队决定将其开发的代码开源,以便更多的研究者能够利用这一平台,深入探索AI代理的工程能力及其在复制AI研究方面的潜力。