首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
阿里新语音模型:可定制角色与背景音乐的freestyle创作

阿里新语音模型:可定制角色与背景音乐的freestyle创作

热心网友
74
转载
2026-03-03

3月2日最新消息,阿里巴巴今日正式发布了两款语音新模型:基于参考音频的声音克隆模型Fun-CosyVoice3.5,以及无需参考音频的音色设计模型Fun-AudioGen-VD。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

据介绍,这两款模型均引入了强大的“指令遵循”能力,让用户可以自由控制声音的情感表达、语速快慢以及场景适配。

它们支持freestyle(自由风格模式)定制角色,适用于有声书制作、游戏配音、智能客服、播客内容、在线教育、直播互动等多个应用场景。

值得一提的是,这两款模型在同尺寸模型的基准测评中斩获了多项SOTA(最先进水平)成果。

在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现尤为抢眼,其词错误率(Word Error Rate, WER)和说话人相似度(Speaker Similarity, SSIM)均达到最佳水平。

同时,由于优化了“困难案例”的发音表现,生僻字句错误率从原来的15.2%显著降低至5.3%。

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

其中,Fun-CosyVoice3.5支持freestyle指令控制,有效解决了传统克隆模型只能模仿、无法指定具体角色的痛点。

Fun-AudioGen-VD则专注于“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中,其表现超越了gemini2.5-pro和gpt-4o-mini-tts。

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

该模型不仅能根据文字描述定制音色和情感,还能同步模拟复杂的听觉环境,实现“人物+场景”的一体化生成效果。

在强化学习训练过程中,两款模型通过采用DiffRO和GRPO技术,增加了时长和韵律多通道的奖励机制。

此外,Fun-CosyVoice3.5所使用的tokenizer帧率减半,不仅提高了训练效率,其首包延迟也降低了35%,大幅提升了实时交互体验。

即日起,用户可在阿里云百炼平台直接调用这两款最新模型。

来源:https://m.mydrivers.com/newsview/1106459.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepZang发布:全球首个藏语AI大模型开启智能时代
科技数码
DeepZang发布:全球首个藏语AI大模型开启智能时代

IT之家 3 月 16 日消息,据《西藏日报》报道,3 月 15 日,全球首个藏语大语言模型 DeepZang 在拉萨正式发布,标志着我国在民族语言 AI 领域实现从“跟跑”到“领跑”的战略性跨越,

热心网友
03.16
大语言模型如何重塑搜索引擎?机遇与挑战深度解析
科技数码
大语言模型如何重塑搜索引擎?机遇与挑战深度解析

"> ">所谓大语言模型,英文简称LLM(Large Language Model),指的就是一种使用大量语言文本,通过智能数据训练,得出人们所需要的文本的计算机模型。比较经典的LLM,有美国的Op

热心网友
03.14
谷歌Gemini大模型:阅读500万篇新闻预测山洪
科技数码
谷歌Gemini大模型:阅读500万篇新闻预测山洪

IT之家 3 月 12 日消息,山洪暴发是全球致死率最高的气象灾害之一,每年造成超过 5000 人死亡,同时也是最难预测的灾害之一。而谷歌认为,他们以一种出人意料的方式破解了这一难题 —— 通过阅读

热心网友
03.12
阿里新语音模型:可定制角色与背景音乐的freestyle创作
业界动态
阿里新语音模型:可定制角色与背景音乐的freestyle创作

3月2日消息,今日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3 5、无参考音频的音色设计模型Fun-AudioGen-VD。据介绍,两款模型均引入了强大的“指令遵

热心网友
03.03
VESPO团队解析大模型过时信息稳定学习方案
科技数码
VESPO团队解析大模型过时信息稳定学习方案

这项由小红书公司技术团队主导的研究成果于2026年2月发表在预印本平台arXiv上,论文编号为2602 10693v1。该研究针对大语言模型强化学习训练中的稳定性难题,提出了一种全新的优化算法VES

热心网友
02.24

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27