近日,金科汤姆猫投资的西湖心辰发布公告,其推出的心辰Lingo语音大模型已于8月24日开启内测预约。这款产品被定义为国内首个端到端语音大模型,与传统TTS(文本转语音)相比,它更像是一次技术突破——不仅具备语音识别能力,还整合了自然语言处理、意图识别、对话管理、语音合成等多个环节,形成了一个从语音输入到语音输出的完整闭环,让人机交互的深度与广度均得到显著提升。

心辰Lingo语音模型是国内首个能力追齐GPT-4o语音能力的模型,其技术能力主要体现在以下三个核心特点:
- 原生语音理解:作为端到端模型,它不仅识别文字信息,还能精准捕捉情感、语气、音调以及环境音。这使得模型能够更全面地理解语音内容,交互体验更加自然生动。
- 多样语音风格表达:根据上下文和用户指令,模型能够自适应调整语速、音高、噪声强度,并可生成对话、歌唱、相声等多种风格的语音响应,适应不同场景的灵活性大幅提升。
- 语音模态超级压缩:采用数百倍压缩率的语音编解码器,将语音压缩至极短长度,既降低计算与存储成本,又能保证生成高质量的语音内容。
可以说,心辰Lingo的问世,标志着国产语音大模型在端到端路线上迈出了实质性的一步。至于实际体验效果如何,内测开启后即可揭晓。
