OpenAI Codex 加入Agent编程工具新阵营
上周五,OpenAI推出了一款名为Codex的新型编程系统,该系统能够通过自然语言命令执行复杂的编程任务。Codex标志着OpenAI正式进军正在形成的代理编程工具新阵营。
从GitHub早期的Copilot到当代的Cursor和Windsurf等工具,大多数AI编程助手都是作为一种极其智能的自动补全形式存在。这些工具通常集成在开发环境中,用户直接与AI生成的代码交互。而简单地分配任务并在任务完成时返回查看结果的可能性,在过去很大程度上是无法实现的。
但是,以Devin、SWE-Agent、OpenHands以及上述OpenAI Codex为代表的新型代理编程工具,旨在无需用户查看代码就能完成工作。其目标是像工程团队的管理者一样运作,通过Asana或Slack等工作系统分配问题,并在解决方案达成时进行检查。
对于那些相信高性能AI的人来说,这是自动化逐步接管更多软件工作的自然进程中的下一个逻辑步骤。
“最开始,人们通过每一次按键来编写代码,”普林斯顿研究员兼SWE-Agent团队成员Kilian Lieret解释道,”GitHub Copilot是第一个提供真正自动补全的产品,这有点像第二阶段。你仍然完全参与其中,但有时你可以走捷径。”
代理系统的目标是完全超越开发环境,而是向编码代理提出问题并让它们自行解决。”我们将事情拉回到管理层面,我只需分配一个错误报告,机器人就会尝试完全自主地修复它,”Lieret说。
这是一个雄心勃勃的目标,但到目前为止,实现起来并不容易。
在Devin于2024年底公开发布后,它受到了YouTube评论者的严厉批评,以及Answer.AI早期客户更为理性的批评。总体印象与”感觉编码”老手们熟悉的情况相似:错误太多,监督模型需要的工作量与手动完成任务一样多。(尽管Devin的推出有些坎坷,但这并没有阻止投资者认识到其潜力——3月,Devin的母公司Cognition AI据报道以40亿美元估值融资数亿美元。)
即使是这项技术的支持者也警告不要进行无人监督的”感觉编码”,他们将新的编码代理视为人工监督开发过程中的强大元素。
“目前,并且我认为在可预见的未来,人类必须在代码审查时介入,查看已编写的代码,”All Hands AI的CEO Robert Brennan说,该公司维护着OpenHands。”我看到过几个人通过自动批准代理编写的每一段代码而把自己搞得一团糟。这很快就会失控。”
幻觉也是一个持续存在的问题。Brennan回忆起一个事件,当被问及在OpenHands代理训练数据截止日期之后发布的API时,代理编造了符合描述的API细节。All Hands AI表示,它正在开发系统来捕捉这些幻觉,防止它们造成伤害,但目前还没有简单的解决方案。
衡量代理编程进展的最佳标准可能是SWE-Bench排行榜,开发者可以在那里测试他们的模型,解决来自开放GitHub仓库的未解决问题。OpenHands目前在已验证的排行榜上排名第一,解决了65.8%的问题集。OpenAI声称为Codex提供动力的模型之一codex-1可以做得更好,在其公告中列出了72.1%的得分——尽管这个得分附带了一些注释,并且尚未经过独立验证。
科技行业许多人担心的是,高基准分数不一定能转化为真正的无人值守代理编码。如果代理编码者只能解决四分之三的问题,他们将需要人类开发者的大量监督——特别是在处理具有多个阶段的复杂系统时。
与大多数AI工具一样,人们希望基础模型的改进能够稳步推进,最终使代理编码系统成长为可靠的开发者工具。但是,寻找管理幻觉和其他可靠性问题的方法将是实现这一目标的关键。
“我认为这有点像音障效应,”Brennan说,”问题是,你能在多大程度上信任代理,让它们最终减轻你的工作负担?”