当前位置：首页 > news >正文

OpenAI 推出其 AI 代理框架的四项关键更新

news 2025/7/10 12:32:48

OpenAI 宣布对其 AI 代理开发栈进行了一系列针对性更新，旨在扩展平台兼容性、改进语音界面支持，并增强可观测性。这些更新反映了 OpenAI 在构建实用、可控且可审计的 AI 代理方面的持续进展，使其能够集成到现实世界的应用程序中，涵盖客户端和服务器环境。

1. 为 Agents SDK 添加 TypeScript 支持

OpenAI 的 Agents SDK 现在支持 TypeScript，这扩展了现有的 Python 实现，使在 JavaScript 和 Node.js 环境中工作的开发者也能使用。TypeScript SDK 与 Python 版本保持一致，包括以下基础组件：

• Handoffs（交接）：将执行过程路由到其他代理或进程的机制。
• Guardrails（防护栏）：在运行时进行检查，将工具行为限制在定义的范围内。
• Tracing（追踪）：在代理执行期间收集结构化遥测数据的钩子。
• MCP（模型上下文协议）：在代理步骤和工具调用之间传递上下文状态的协议。

这一新增功能使 SDK 与现代网络和云原生应用栈保持一致。开发者现在可以使用统一的抽象，在前端（浏览器）和后端（Node.js）环境中构建和部署代理。开放文档可在 openai-agents-js(https://openai.github.io/openai-agents-js/) 查看。

2. 具备人工干预能力的 RealtimeAgent

OpenAI 推出了一个新的 RealtimeAgent 抽象，以支持对延迟敏感的语音应用。RealtimeAgents 在 Agents SDK 的基础上扩展了音频输入/输出、有状态交互和中断处理功能。

其中一个重要特性是人在回路（Human-in-the-Loop，HITL）审批，允许开发者在运行时拦截代理的执行，序列化其状态，并在继续之前要求手动确认。这对于需要监督、合规检查或在工具执行期间进行领域特定验证的应用特别相关。

开发者可以暂停执行、检查序列化状态，并在保留完整上下文的情况下恢复代理。OpenAI 的 HITL(https://openai.github.io/openai-agents-js/guides/human-in-the-loop/) 文档详细描述了这一工作流程。

3. 为实时 API 会话提供可追溯性

作为 RealtimeAgent 功能的补充，OpenAI 扩展了追踪仪表板，增加了对语音代理会话的支持。现在追踪涵盖了完整的实时 API 会话，无论是通过 SDK 还是直接通过 API 调用发起的。

追踪界面允许可视化：

• 音频输入和输出（流式或缓冲）
• 工具调用及其参数
• 用户中断和代理恢复

这为基于文本和以音频为主的代理提供了统一的审计跟踪，简化了跨模态的调试、质量保证和性能调优。追踪格式是标准化的，并与 OpenAI 的更广泛监控栈集成，无需额外的仪器即可提供可视性。

Speech-to-speech model

进一步的实现细节可在 openai-agents-js/guides/voice-agents(https://openai.github.io/openai-agents-js/guides/voice-agents/) 的语音代理指南中查看。

4. 对语音到语音管道的改进

OpenAI 还对其底层的语音到语音模型进行了更新，该模型支持实时音频交互。改进重点在于降低延迟、提高自然度以及更有效地处理中断。

尽管模型的核心能力——语音识别、合成和实时反馈保持不变，但这些改进使对话系统在响应性和语调变化方面更加一致。这包括：

• 低延迟流式传输：在口头对话中更快地进行轮换。
• 富有表现力的音频生成：改善语调和停顿建模。
• 对中断的鲁棒性：代理能够优雅地响应重叠输入。

这些变化与 OpenAI 支持在动态、多模态环境中运行的具身和对话代理的更广泛努力相一致。

总结

这四项更新共同加强了构建具备语音功能、可追溯且对开发者友好的 AI 代理的基础。通过与 TypeScript 环境的深度集成，在实时流程中引入结构化控制点，并增强可观测性和语音交互质量，OpenAI 继续朝着更加模块化和互操作性的代理生态系统迈进。

查看全文

http://www.dtcms.com/a/271230.html

Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程

拼多多正在错失即时零售？

C++智能指针与Qt内存管理详解

RESTful接口设计规范详解

SAP采购管理系统替代选谁？8Manage SRM全面优势测评与深度对比

码云创建分支

网络请求与现实生活：用办理业务类比理解HTTP通信

ubuntu环境下调试 RT-Thread

降AI工具有哪些推荐？降AI率网站的选择与使用指南

人工智能-基础篇-27-模型上下文协议--MCP到底怎么理解？对比HTTP的区别？

SDR（软件定义无线电）与软件定义声学系统详解

ECR仓库CloudFormation模板完整指南

第1章 Excel界面环境与基础操作指南

精准医疗，AR 锚定球囊扩张导管为健康护航

微信小程序控制空调之微信小程序篇

机器学习（西瓜书）第四章决策树

【论文阅读】AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking

量化数据接口，level2历史数据，level2实时数据，逐笔成交，逐笔委托，10档行情接口

姿态估计：捕捉人体动作的科技艺术

科技对生态保育的影响？

Git系列--3.分支管理

自学软件测试需要学哪些内容？

图像硬解码和软解码

轻量锁偏向锁重量锁害人不浅！synchronized源码！

eggNOG数据库注释文件

HCIA暑期作业

阿里云和腾讯云RocketMQ 发消息和消费消息客户端JAVA接口

高速公路门架系统的三种数据（交易流水、牌识流水、雷达轨迹）是怎么生成的

区块链平台以太坊核心原理

人工智能与机器学习暑期科研项目招募（可发表论文）

1. 为 Agents SDK 添加 TypeScript 支持

2. 具备人工干预能力的 RealtimeAgent

3. 为实时 API 会话提供可追溯性

4. 对语音到语音管道的改进

总结

相关文章：