3月2日,阿里通义实验室语音团队正式推出两款支持自由风格指令生成的模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。
据介绍,这两款模型实现了对语音表达和音频场景的精准控制。用户仅需通过自然语言指令,即可直接生成所需的语音效果,无论是细腻的情绪表达,还是从零开始设计音色与场景,都能轻松实现。
其中,Fun-CosyVoice3.5专注于多语种复刻与精细化表达控制。用户可以直接用自然语言描述表达方式,例如“语气再坚定一些”“稍微压低音调,语速放慢一点”“带一点情绪起伏”……模型能准确理解并生成对应的语音表现。此外,针对生僻字、复杂语句等容易读错的场景,Fun-CosyVoice3.5进行了专项优化,将生僻字读错率从15.2%降至5.3%,

而Fun-AudioGen-VD则主打音色设计与场景化音频生成。它支持根据自然语言描述,生成目标音色、情绪表达和完整听觉场景。不仅如此,Fun-AudioGen-VD不仅能生成语音,还能生成语音所处的“世界”,为用户打造沉浸式的听觉体验。

