当前位置: 首页 > news >正文

OpenAI 推出其 AI 代理框架的四项关键更新

OpenAI 宣布对其 AI 代理开发栈进行了一系列针对性更新,旨在扩展平台兼容性、改进语音界面支持,并增强可观测性。这些更新反映了 OpenAI 在构建实用、可控且可审计的 AI 代理方面的持续进展,使其能够集成到现实世界的应用程序中,涵盖客户端和服务器环境。

1. 为 Agents SDK 添加 TypeScript 支持

OpenAI 的 Agents SDK 现在支持 TypeScript,这扩展了现有的 Python 实现,使在 JavaScript 和 Node.js 环境中工作的开发者也能使用。TypeScript SDK 与 Python 版本保持一致,包括以下基础组件:

  • • Handoffs(交接):将执行过程路由到其他代理或进程的机制。

  • • Guardrails(防护栏):在运行时进行检查,将工具行为限制在定义的范围内。

  • • Tracing(追踪):在代理执行期间收集结构化遥测数据的钩子。

  • • MCP(模型上下文协议):在代理步骤和工具调用之间传递上下文状态的协议。

这一新增功能使 SDK 与现代网络和云原生应用栈保持一致。开发者现在可以使用统一的抽象,在前端(浏览器)和后端(Node.js)环境中构建和部署代理。开放文档可在 openai-agents-js(https://openai.github.io/openai-agents-js/) 查看。

2. 具备人工干预能力的 RealtimeAgent

OpenAI 推出了一个新的 RealtimeAgent 抽象,以支持对延迟敏感的语音应用。RealtimeAgents 在 Agents SDK 的基础上扩展了音频输入/输出、有状态交互和中断处理功能。

其中一个重要特性是人在回路(Human-in-the-Loop,HITL)审批,允许开发者在运行时拦截代理的执行,序列化其状态,并在继续之前要求手动确认。这对于需要监督、合规检查或在工具执行期间进行领域特定验证的应用特别相关。

开发者可以暂停执行、检查序列化状态,并在保留完整上下文的情况下恢复代理。OpenAI 的 HITL(https://openai.github.io/openai-agents-js/guides/human-in-the-loop/) 文档详细描述了这一工作流程。

3. 为实时 API 会话提供可追溯性

作为 RealtimeAgent 功能的补充,OpenAI 扩展了追踪仪表板,增加了对语音代理会话的支持。现在追踪涵盖了完整的实时 API 会话,无论是通过 SDK 还是直接通过 API 调用发起的。

追踪界面允许可视化:

  • • 音频输入和输出(流式或缓冲)

  • • 工具调用及其参数

  • • 用户中断和代理恢复

这为基于文本和以音频为主的代理提供了统一的审计跟踪,简化了跨模态的调试、质量保证和性能调优。追踪格式是标准化的,并与 OpenAI 的更广泛监控栈集成,无需额外的仪器即可提供可视性。

Speech-to-speech model

进一步的实现细节可在 openai-agents-js/guides/voice-agents(https://openai.github.io/openai-agents-js/guides/voice-agents/) 的语音代理指南中查看。

4. 对语音到语音管道的改进

OpenAI 还对其底层的语音到语音模型进行了更新,该模型支持实时音频交互。改进重点在于降低延迟、提高自然度以及更有效地处理中断。

尽管模型的核心能力——语音识别、合成和实时反馈保持不变,但这些改进使对话系统在响应性和语调变化方面更加一致。这包括:

  • • 低延迟流式传输:在口头对话中更快地进行轮换。

  • • 富有表现力的音频生成:改善语调和停顿建模。

  • • 对中断的鲁棒性:代理能够优雅地响应重叠输入。

这些变化与 OpenAI 支持在动态、多模态环境中运行的具身和对话代理的更广泛努力相一致。

总结

这四项更新共同加强了构建具备语音功能、可追溯且对开发者友好的 AI 代理的基础。通过与 TypeScript 环境的深度集成,在实时流程中引入结构化控制点,并增强可观测性和语音交互质量,OpenAI 继续朝着更加模块化和互操作性的代理生态系统迈进。

http://www.dtcms.com/a/271230.html

相关文章:

  • Python数据分析案例|从模拟数据到可视化:零售门店客流量差异分析全流程
  • 拼多多正在错失即时零售?
  • C++智能指针与Qt内存管理详解
  • RESTful接口设计规范详解
  • SAP采购管理系统替代选谁?8Manage SRM全面优势测评与深度对比
  • 码云创建分支
  • 网络请求与现实生活:用办理业务类比理解HTTP通信
  • ubuntu环境下调试 RT-Thread
  • 降AI工具有哪些推荐?降AI率网站的选择与使用指南
  • 人工智能-基础篇-27-模型上下文协议--MCP到底怎么理解?对比HTTP的区别?
  • SDR(软件定义无线电)与软件定义声学系统详解
  • ECR仓库CloudFormation模板完整指南
  • 第1章 Excel界面环境与基础操作指南
  • 精准医疗,AR 锚定球囊扩张导管为健康护航​
  • 微信小程序控制空调之微信小程序篇
  • 机器学习(西瓜书) 第四章 决策树
  • 【论文阅读】AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking
  • 量化数据接口,level2历史数据,level2实时数据,逐笔成交,逐笔委托,10档行情接口
  • 姿态估计:捕捉人体动作的科技艺术
  • 科技对生态保育的影响?
  • Git系列--3.分支管理
  • 自学软件测试需要学哪些内容?
  • 图像硬解码和软解码
  • 轻量锁偏向锁重量锁害人不浅!synchronized源码!
  • eggNOG数据库注释文件
  • HCIA暑期作业
  • 阿里云和腾讯云RocketMQ 发消息和消费消息客户端JAVA接口
  • 高速公路门架系统的三种数据(交易流水、牌识流水、雷达轨迹)是怎么生成的
  • 区块链平台以太坊核心原理
  • 人工智能与机器学习暑期科研项目招募(可发表论文)