OpenAI 推出其 AI 代理框架的四项关键更新
OpenAI 宣布对其 AI 代理开发栈进行了一系列针对性更新,旨在扩展平台兼容性、改进语音界面支持,并增强可观测性。这些更新反映了 OpenAI 在构建实用、可控且可审计的 AI 代理方面的持续进展,使其能够集成到现实世界的应用程序中,涵盖客户端和服务器环境。
1. 为 Agents SDK 添加 TypeScript 支持
OpenAI 的 Agents SDK 现在支持 TypeScript,这扩展了现有的 Python 实现,使在 JavaScript 和 Node.js 环境中工作的开发者也能使用。TypeScript SDK 与 Python 版本保持一致,包括以下基础组件:
• Handoffs(交接):将执行过程路由到其他代理或进程的机制。
• Guardrails(防护栏):在运行时进行检查,将工具行为限制在定义的范围内。
• Tracing(追踪):在代理执行期间收集结构化遥测数据的钩子。
• MCP(模型上下文协议):在代理步骤和工具调用之间传递上下文状态的协议。
这一新增功能使 SDK 与现代网络和云原生应用栈保持一致。开发者现在可以使用统一的抽象,在前端(浏览器)和后端(Node.js)环境中构建和部署代理。开放文档可在 openai-agents-js(https://openai.github.io/openai-agents-js/) 查看。
2. 具备人工干预能力的 RealtimeAgent
OpenAI 推出了一个新的 RealtimeAgent 抽象,以支持对延迟敏感的语音应用。RealtimeAgents 在 Agents SDK 的基础上扩展了音频输入/输出、有状态交互和中断处理功能。
其中一个重要特性是人在回路(Human-in-the-Loop,HITL)审批,允许开发者在运行时拦截代理的执行,序列化其状态,并在继续之前要求手动确认。这对于需要监督、合规检查或在工具执行期间进行领域特定验证的应用特别相关。
开发者可以暂停执行、检查序列化状态,并在保留完整上下文的情况下恢复代理。OpenAI 的 HITL(https://openai.github.io/openai-agents-js/guides/human-in-the-loop/) 文档详细描述了这一工作流程。
3. 为实时 API 会话提供可追溯性
作为 RealtimeAgent 功能的补充,OpenAI 扩展了追踪仪表板,增加了对语音代理会话的支持。现在追踪涵盖了完整的实时 API 会话,无论是通过 SDK 还是直接通过 API 调用发起的。
追踪界面允许可视化:
• 音频输入和输出(流式或缓冲)
• 工具调用及其参数
• 用户中断和代理恢复
这为基于文本和以音频为主的代理提供了统一的审计跟踪,简化了跨模态的调试、质量保证和性能调优。追踪格式是标准化的,并与 OpenAI 的更广泛监控栈集成,无需额外的仪器即可提供可视性。
进一步的实现细节可在 openai-agents-js/guides/voice-agents(https://openai.github.io/openai-agents-js/guides/voice-agents/) 的语音代理指南中查看。
4. 对语音到语音管道的改进
OpenAI 还对其底层的语音到语音模型进行了更新,该模型支持实时音频交互。改进重点在于降低延迟、提高自然度以及更有效地处理中断。
尽管模型的核心能力——语音识别、合成和实时反馈保持不变,但这些改进使对话系统在响应性和语调变化方面更加一致。这包括:
• 低延迟流式传输:在口头对话中更快地进行轮换。
• 富有表现力的音频生成:改善语调和停顿建模。
• 对中断的鲁棒性:代理能够优雅地响应重叠输入。
这些变化与 OpenAI 支持在动态、多模态环境中运行的具身和对话代理的更广泛努力相一致。
总结
这四项更新共同加强了构建具备语音功能、可追溯且对开发者友好的 AI 代理的基础。通过与 TypeScript 环境的深度集成,在实时流程中引入结构化控制点,并增强可观测性和语音交互质量,OpenAI 继续朝着更加模块化和互操作性的代理生态系统迈进。