时间:2025-08-30 作者:游乐小编
8月29日消息,OpenAI宣布其“Realtime API”正式结束测试阶段,全面投入生产环境使用。
据了解,这款API主要面向企业用户和开发者,旨在帮助他们构建适用于真实场景的语音助手,应用范围涵盖客户服务、教育培训以及个人效率提升等多个领域。其核心“gpt-realtime”模型采用端到端的语音到语音(Speech-to-Speech)架构,能够直接生成并处理语音,无需经过传统的文本转换环节。据OpenAI介绍,新一代模型在响应速度、语音自然度以及对复杂指令的理解能力上,均有显著提升。
OpenAI指出,gpt-realtime模型现已能够识别笑声等非语言信号,支持在对话中实时切换语言,并允许调整语音风格,例如模拟“带法国口音的友好语气”或“语速较快的专业语调”。此外,模型新增了“Cedar”和“Marin”两种语音选项,并对现有的8种语音进行了效果优化。
在多项基准测试中,gpt-realtime表现突出:Big Bench Audio准确率从65.6%提升至82.8%,MultiChallenge从20.6%升至30.5%,ComplexFuncBench则从49.7%提高到了66.5%。
此次API更新还改进了工具集成机制。该模型能更精准地选用工具、把握调用时机并正确配置参数,从而显著增强函数调用的稳定性。开发者可通过会话初始协议(SIP)和远程媒体控制协议(MCP)服务器接入外部工具与服务。可复用提示词功能支持保存不同场景的配置与工具设置,进一步提升了开发效率。
新版本API还新增了图像输入支持。用户可在对话中发送截图或照片,模型可据此进行交互,例如读取图中文字或回答与图像相关的问题。开发者可自主设定模型可访问的图像范围。
此外,API引入了两项实用功能:开发者可设置token使用上限,并对多轮对话内容进行压缩处理,有助于在长会话中更好地控制成本。价格方面,gpt-realtime模型的费用降低了20%,当前音频输入token每百万个定价32美元(约合229元人民币),音频输出token每百万个64美元(约457.9元人民币),缓存输入token每百万个0.40美元(约2.9元人民币)。
OpenAI强调,该API具备内容审核能力,可自动终止违反平台政策的对话。不过公司也提醒,从语言模型的安全发展经验来看,这不应是唯一防护措施,开发者仍需根据自身需求补充额外的安全机制。
针对欧盟用户,该API提供了数据本地化存储选项,并为企业用户制定了专门的隐私规则,以确保符合欧盟数据保护法规的要求。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略