当前位置: 首页 > news >正文

OpenAI Codex 加入Agent编程工具新阵营

上周五,OpenAI推出了一款名为Codex的新型编程系统,该系统能够通过自然语言命令执行复杂的编程任务。Codex标志着OpenAI正式进军正在形成的代理编程工具新阵营。

从GitHub早期的Copilot到当代的Cursor和Windsurf等工具,大多数AI编程助手都是作为一种极其智能的自动补全形式存在。这些工具通常集成在开发环境中,用户直接与AI生成的代码交互。而简单地分配任务并在任务完成时返回查看结果的可能性,在过去很大程度上是无法实现的。

但是,以Devin、SWE-Agent、OpenHands以及上述OpenAI Codex为代表的新型代理编程工具,旨在无需用户查看代码就能完成工作。其目标是像工程团队的管理者一样运作,通过Asana或Slack等工作系统分配问题,并在解决方案达成时进行检查。

对于那些相信高性能AI的人来说,这是自动化逐步接管更多软件工作的自然进程中的下一个逻辑步骤。

“最开始,人们通过每一次按键来编写代码,”普林斯顿研究员兼SWE-Agent团队成员Kilian Lieret解释道,”GitHub Copilot是第一个提供真正自动补全的产品,这有点像第二阶段。你仍然完全参与其中,但有时你可以走捷径。”

代理系统的目标是完全超越开发环境,而是向编码代理提出问题并让它们自行解决。”我们将事情拉回到管理层面,我只需分配一个错误报告,机器人就会尝试完全自主地修复它,”Lieret说。

这是一个雄心勃勃的目标,但到目前为止,实现起来并不容易。

在Devin于2024年底公开发布后,它受到了YouTube评论者的严厉批评,以及Answer.AI早期客户更为理性的批评。总体印象与”感觉编码”老手们熟悉的情况相似:错误太多,监督模型需要的工作量与手动完成任务一样多。(尽管Devin的推出有些坎坷,但这并没有阻止投资者认识到其潜力——3月,Devin的母公司Cognition AI据报道以40亿美元估值融资数亿美元。)

即使是这项技术的支持者也警告不要进行无人监督的”感觉编码”,他们将新的编码代理视为人工监督开发过程中的强大元素。

“目前,并且我认为在可预见的未来,人类必须在代码审查时介入,查看已编写的代码,”All Hands AI的CEO Robert Brennan说,该公司维护着OpenHands。”我看到过几个人通过自动批准代理编写的每一段代码而把自己搞得一团糟。这很快就会失控。”

幻觉也是一个持续存在的问题。Brennan回忆起一个事件,当被问及在OpenHands代理训练数据截止日期之后发布的API时,代理编造了符合描述的API细节。All Hands AI表示,它正在开发系统来捕捉这些幻觉,防止它们造成伤害,但目前还没有简单的解决方案。

衡量代理编程进展的最佳标准可能是SWE-Bench排行榜,开发者可以在那里测试他们的模型,解决来自开放GitHub仓库的未解决问题。OpenHands目前在已验证的排行榜上排名第一,解决了65.8%的问题集。OpenAI声称为Codex提供动力的模型之一codex-1可以做得更好,在其公告中列出了72.1%的得分——尽管这个得分附带了一些注释,并且尚未经过独立验证。

科技行业许多人担心的是,高基准分数不一定能转化为真正的无人值守代理编码。如果代理编码者只能解决四分之三的问题,他们将需要人类开发者的大量监督——特别是在处理具有多个阶段的复杂系统时。

与大多数AI工具一样,人们希望基础模型的改进能够稳步推进,最终使代理编码系统成长为可靠的开发者工具。但是,寻找管理幻觉和其他可靠性问题的方法将是实现这一目标的关键。

“我认为这有点像音障效应,”Brennan说,”问题是,你能在多大程度上信任代理,让它们最终减轻你的工作负担?”

相关文章:

  • Nuxt.js一个基于 Vue.js 的通用应用框架
  • SSL证书:谷歌算法排名的安全基石与信任杠杆
  • (十三)深入了解AVFoundation-采集:视频帧采集与实时滤镜处理
  • Windows系统:处理文件夹拖动时的冲突与选择
  • [软件工程]第二章题目汇总
  • 基于线性回归的数据预测
  • Oracle RAC ADG备库版本降级方案(19.20 → 19.7)
  • Java 大视界——Java大数据在智慧交通智能停车诱导系统中的数据融合与实时更新
  • C语言指针深入详解(五):回调函数、qsort函数
  • Windows平台多功能工具箱Moo0的技术实现分析
  • 牛客周赛 Round 93题解(个人向A-E)
  • 通过强化学习让大模型自适应开启思考模式
  • 十四、面向对象底层逻辑-BeanFactoryPostProcessor接口设计
  • 塔能智能照明方案——贵州某地区市政照明改造实践
  • UE(虚幻)学习(六)插件打包在UE5.3.2下Value cannot be null的错误
  • 科技赋能,开启现代健康养生新潮流
  • matlab+opencv车道线识别
  • 火语言RPA--EmpireV7相册发布
  • 中级网络工程师知识点9
  • Go 语言简介
  • 马上评|当众猥亵女演员,没有任何开脱理由
  • 凤阳文旅局回应鼓楼瓦片脱落:鼓楼楼宇系仿古建筑,动工时已履行报批手续
  • 夜读丨永不掉电的陪伴
  • 在深化教育科技人才一体发展上打头阵、当尖兵!陈吉宁调研复旦大学
  • 上海电视节评委会名单公布,陈宝国担任电视剧评委会主席
  • 改造老旧小区、建立“一张图”,五部委将多举措支持城市更新