Inworld AI近日发布了全新的语音合成模型Inworld TTS-1.5,官方宣称其是目前业界延迟最低、音质最优的实时语音AI解决方案。
据最新披露,TTS-1.5 Max的P90首字响应延迟控制在250毫秒以内,而更轻量的TTS-1.5 Mini则进一步压缩至130毫秒以下,较前代提速达4倍。尤为关键的是,Max版本在维持超低延迟的同时,实现了过去仅能在高延迟场景下达成的音频保真度;其推理速度已逼近Mini版本,却能输出更具层次感与情绪张力的人声表现。

升级后的TTS-1.5在语音表现力方面提升30%,词级错误率下降40%,并显著缓解了幻听、断句卡顿及音色失真等常见问题。最终生成语音高度拟人:情感表达自然细腻,语境理解精准稳定,听感几近真人发声。
多语言能力同步增强,支持语种已扩展至15种。成本优势同样突出——相比主流竞品,单位算力成本降低逾25倍。其中,TTS-1.5 Mini每分钟调用费用仅为0.005美元,TTS-1.5 Max也仅需0.01美元/分钟。

TTS-1.5 Max覆盖绝大多数交互场景需求,而TTS-1.5 Mini则专为对端到端延迟极度敏感的应用(如实时对话、游戏NPC语音)深度优化。
