OpenAI推出GPT-Realtime端到端语音模型，赋能开发者打造语音智能体

时间:2025-08-29 作者:游乐小编

北京时间8月29日凌晨，OpenAI通过直播发布其迄今最先进的端对端语音模型（Speech-to-Speech）GPT-Realtime，并宣布Realtime API全面进入生产环境。相较于之前的语音AI产品，GPT-Realtime性能更优，价格更低，旨在帮助开发者更轻松地构建高效、可靠的语音智能体。

伴随性能提升，GPT-Realtime的定价大幅优化，较上一代产品GPT-4o-Realtime-Preview降低20%。此前，GPT-4o-Realtime-Preview价格为每百万音频输入tokens 40美元，每百万音频输出tokens 80美元。GPT-Realtime调整后价格为每百万音频输入tokens 32美元（缓存输入tokens 0.40美元），每百万音频输出tokens 64美元。这一优化定价让开发者能以更低成本构建高效的语音智能体，同时享受更卓越的性能。

OpenAI还优化了对话上下文管理，开发者可灵活设置token限制并一次性截断多轮对话，显著降低长会话成本。

01.深入解析：更智能、更具表现力的语音模型

全新GPT-Realtime模型在性能上实现了重大飞跃。OpenAI宣称这是其迄今最先进的生产级语音模型，在遵循复杂指令、精确调用工具以及生成更自然、富有表现力的语音方面取得显著进步。

OpenAI表示，GPT-Realtime能够更精准地执行复杂指令，生成更自然、富有表现力的语音，并支持在一句话中无缝切换多种语言。在内部基准测试中，该模型展现出更高的智能水平。相较于之前的语音AI模型，GPT-Realtime在以下方面显著提升：

音质与表现力：能模拟人类语调、情感和语速，支持开发者自定义语气，如“快速且专业”或“温和且体贴”，提升用户体验。

智能与理解力：不仅处理文本和语音，还能识别非语言信号（如笑声），并在一句话中灵活切换语言，并准确处理字母数字序列。内部测试显示，GPT-Realtime在Big Bench Audio推理测试中的准确率达 82.8%，远超上一代产品GPT-4o-Realtime-Preview在2024年12月的65.6%，以及在今年6月3日的81.5%。

指令遵循：指令遵循是可靠智能体的关键功能，GPT-Realtime在这方面也有所增强。在MultiChallenge Audio测试中，GPT-Realtime指令执行准确率达30.5%，能够更可靠地遵循开发者指定的提示，例如在支持电话中逐字朗读法律免责声明。这一表现优于上一代产品 GPT-4o-Realtime-Preview在2024年12月的测试值20.6%，以及在今年6月3日的测试值26.5%。

函数调用：为在现实世界中发挥作用，语音智能体必须有效使用外部工具。在ComplexFuncBench Audio测试中，GPT-Realtime函数调用准确率达66.5%，并支持异步调用，确保对话流畅不因等待结果而中断。相比之下，GPT-4o-Realtime-Preview在2024年12月的测试值为49.7%，在今年6月3日测试值为58.9%。

除了智能提升，该模型经过训练能生成更高质量的语音，具备更类人的语调、情感和语速。它能遵循细粒度的指令，例如“快速且专业地讲话”或“以法国口音温和地讲话”，为用户提供更个性化的体验。此外，GPT-Realtime支持图像输入，可识别照片或截图内容。例如，用户可上传截图并要求模型 “读取其中文字”，进一步扩展应用场景。

为展示这些进步，OpenAI发布了两种仅在API中可用的新语音——Cedar 和Marin，展现了最显著的自然语音改进。这一对细节的关注旨在解决行业关键挑战：OpenAI的升级直接致力于打造更具吸引力和更少机器人化的用户体验。

02.赋能开发者：面向生产级智能体的API升级

除了新模型，Realtime API本身现已达到生产级标准。自2024年10月公测以来，OpenAI收集了数千名开发者的反馈，并进行了相应的改进。API的架构通过单一模型直接处理音频，旨在降低延迟并保留语音细节，相较于传统语音到文本和文本到语音的多模型串联管道具有明显优势。

一项关键新增功能是支持远程模型上下文协议（MCP）服务器。这一开放标准简化了AI模型与外部数据的连接方式。开发者现可通过会话配置传递远程MCP服务器的URL，使Realtime API自动处理工具调用，无需手动集成。这简化了将AI模型连接到专有数据源的过程，是构建强大商业智能体的关键步骤，同时优先保障用户数据和隐私。

Realtime API现还支持图像输入，启用多模态对话，智能体可分析并讨论用户看到的内容。系统将图像视为对话中的快照而非实时视频流，确保开发者对模型看到的内容保有控制权。这解锁了诸如让智能体描述照片或读取截图文本等用例。

此外，新增的会话发起协议（SIP）支持允许直接与公共电话网络、PBX 系统和其他企业电话端点集成，便于在呼叫中心等商业环境中部署语音智能体。

早期采用者已见成效。房地产平台Zillow提前获得了Realtime API访问权限，用于驱动其下一代房屋搜索。该公司AI负责人约什·维斯伯格（Josh Weisberg）表示：“它展现了更强的推理能力和更自然的语音，能够处理复杂、多步骤的请求，如根据生活方式需求筛选房源。”

03.竞争激烈的语音AI赛场

OpenAI此次发布GPT-Realtime模型，正值语音AI市场竞争白热化阶段，各大竞争对手正积极推进自身语音技术研发与布局。今年5月，Anthropic为旗下Claude AI推出语音模式，强势跻身语音AI领域；7 月，Meta以4500万美元收购语音初创公司PlayAI，旨在强化其AI助手与智能眼镜的技术能力，这一动作也进一步加剧了行业内的人才争夺。

开源社区同样是不容忽视的强大竞争力量。7月，法国初创公司Mistral发布Voxtral模型，该模型采用Apache 2.0许可协议，且最新承诺其服务价格将低于同类产品API价格的一半，同时能提供顶尖性能；本月，小米发布自研声音理解大模型MiDashengLM-7B，该模型创新性地采用基于字幕的训练方法，实现了对语音、音乐及环境音的全面理解，并且同样采用商业友好型许可协议。

传统科技巨头也在语音AI领域持续发力。今年4月，亚马逊推出实时表现力模型Nova Sonic，并将其集成至旗下Alexa+助手中。语音AI领域的创新还延伸到了专业初创公司层面。例如，Stability AI专注于设备端语音处理技术的研发；而Sesame AI等公司则通过在语音中加入自然停顿、轻微口吃等类人特征，打造出被称为“惊艳逼真”的AI助手。

此次 OpenAI通过优化技术，让其最先进的语音模型变得更易用、功能更强且更具成本优势，这一举措是其在愈发激烈的平台竞争中采取的战略布局。OpenAI寄希望于凭借卓越的开发者体验，在这场语音AI领域的“战争”中占据优势，成为决定竞争结果的关键因素。