当前位置: 首页 > news >正文

OpenAI宣布正式推出Realtime API

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

自去年10月公开测试以来,已有数千名开发者使用Realtime API并推动其优化。与传统的语音处理管道(将语音转文字,再由语言模型生成文字,最后再转为语音输出)不同,Realtime API能够直接通过单一模型处理和生成音频,从而减少延迟、保留语音细节并实现更自然的互动。

多家企业已开始尝试该技术。例如,Zillow的AI负责人Josh Weisberg表示,新模型在处理复杂请求方面表现更佳,如根据生活方式需求筛选房源或结合融资工具指导购房预算,这让找房体验更接近自然对话。

gpt-realtime模型的主要改进包括:

  • 音频质量:语音更加自然,能根据指令调整语气和语速,例如“快速且专业”或“带有同理心的法语口音”。新加入的Cedar和Marin声音尤其在自然感上有突破。

  • 智能与理解力:更好地捕捉非语言提示(如笑声)、在对话中切换语言,并准确识别多语言的字母数字序列。在Big Bench Audio推理评估中,准确率达到82.8%,远超去年12月版本的65.6%。

  • 指令遵循能力:在MultiChallenge多轮对话测试中,准确率达到30.5%,较之前的20.6%大幅提升,表现出对细微指令更敏锐的执行力。

  • 函数调用能力:在ComplexFuncBench评估中准确率为66.5%,显著提升模型在生产环境下调用相关工具的时机和参数匹配能力,同时支持异步函数调用,保证对话流畅不中断。

Realtime API的新功能:

  • 远程MCP服务器支持:只需在会话配置中加入MCP服务器地址,API即可自动处理工具调用,无需手动集成。

  • 图像输入:开发者可以在会话中添加图片、照片或截图,结合语音和文本进行交互,使模型能基于用户所见提供反馈。

  • SIP电话呼叫支持:可直接连接公共电话网络、PBX系统和座机。

  • 可复用提示:开发者可在不同会话中重复使用包含消息、工具及变量的提示内容,提升开发灵活性。

安全与隐私方面,Realtime API内置多层防护机制,实时检测潜在违规对话并可终止,开发者也能利用Agents SDK增加额外的安全约束。此外,服务禁止输出被用于垃圾信息、欺骗或其他有害用途,并要求开发者明确告知用户何时与AI交互。该API已全面支持欧盟数据本地化,并遵循企业级隐私承诺。

价格方面,OpenAI宣布gpt-realtime的价格比之前的gpt-4o-realtime-preview降低20%:音频输入为每百万tokens 32美元(缓存输入为0.40美元),输出为每百万tokens 64美元。开发者还可通过智能上下文控制和多轮截断来降低长会话的成本。

目前,开发者可在官方文档中查看Realtime API的使用说明,在Playground中测试新模型,并参考提示指南来快速上手。

http://www.dtcms.com/a/357757.html

相关文章:

  • ADC模数转换
  • Set和Map
  • AI的“科学革命”:Karpathy吹响号角,从“经院哲学”走向“实验科学”
  • 【.net core】【NPOI】读取表格信息(处理合并行表格数据)
  • vscode里面可以批量放弃更改
  • Linux驱动异步通知机制详解
  • Labview邪修01:贪吃蛇
  • 【完整源码+数据集+部署教程】控制台缺陷检测系统源码和数据集:改进yolo11-repvit
  • IDEA编译报错:Error:(3, 28) java: 程序包com.alibaba.fastjson不存在
  • GPFS性能优化
  • zyplayer-doc:AI 驱动的智能知识库
  • LeetCode力扣-hot100系列(2)
  • MQTT高延迟通信优化指南
  • 解密企业数据安全:服务业加密软件的核心价值
  • POE供电是什么?
  • RAG教程5:多表示索引和ColBERT
  • 不一样的发票管理模式-发票识别+发票查验接口
  • 篮球API接口:技术如何革新体育数据体验
  • FunctionAI 图像生成:简化从灵感到 API 调用的每一步
  • Spring Boot自动装配机制的原理
  • Kafka入门指南:从安装到集群部署
  • 【数据结构与算法-Day 20】从零到一掌握二叉树:定义、性质、特殊形态与存储结构全解析
  • 最新SF授权系统源码全开源无加密v5.2版本
  • 什么是Jmeter? Jmeter工作原理是什么?
  • 平安健康平安芯医AI解析:7×24小时问诊+95%诊断准确率,人文温度短板与医生效能提升引热议
  • 【完整源码+数据集+部署教程】高速公路施工区域物体检测系统源码和数据集:改进yolo11-RepNCSPELAN
  • 手写链路追踪
  • 基于Net海洋生态环境保护系统的设计与实现(代码+数据库+LW)
  • 【面试场景题】怎么做业务领域划分
  • 互联网大厂AI大模型面试解析:从基础技术到场景应用