首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Qwen3-TTS上新:阿里通义自研语音模型,可复刻可定制

Qwen3-TTS上新:阿里通义自研语音模型,可复刻可定制

热心网友
91
转载
2025-12-24

12月24日,据IT之家消息,阿里通义今日正式发布Qwen3-TTS家族的两款新模型:声音创作模型Qwen3-TTS-VD-Flash和声音克隆模型Qwen3-TTS-VC-Flash。两款模型的核心亮点整理如下:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

声音创作:Qwen3-TTS-VD-Flash能够理解复杂的自然语言指令,实现对音色、韵律、情感乃至人物设定的精细化调控,真正掌握从“说什么”到“如何说”的完整表达。用户得以自由定义想要的声音效果,彻底摆脱只能依赖现有音色进行克隆,或从有限预设音色库中做选择的束缚。在InstructTTS-Eval评测中,其综合表现显著优于GPT-4o-mini-tts和Mimo-audio-7b-instruct;在角色扮演测试中,其表现也超越了Gemini-2.5-pro-preview-tts。

声音克隆:Qwen3-TTS-VC-Flash支持仅需3秒音频即可完成高质量的语音克隆,并能在克隆音色的基础上,流畅生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等全球十大主流语言的语音。在MiniMax TTS多语言测试集上,其平均词错误率(WER)全面低于MiniMax、ElevenLabs及GPT-4o-Audio-Preview,展现出优异的准确性。

高表现力:无论是Qwen3-TTS-VD-Flash还是Qwen3-TTS-VC-Flash,均能生成高度拟人化、富有表现力的音色。它们能够稳定可靠地输出与输入文本高度契合的语音内容,并能根据文本语义自动调节语气节奏,呈现出自然生动的表达效果。

鲁棒的文本能力:Qwen3-TTS-VD-Flash和Qwen3-TTS-VC-Flash具备强大的文本解析能力,可自动处理复杂的文本结构,精准提取关键信息。面对多样化、非规范的文本格式时,两者均展现出较强的鲁棒性(IT之家注:robustness,指系统在内部结构或外部环境发生变化时,维持功能稳定运行的能力)。

定制化声音形象:Qwen3-TTS支持通过自然语言描述生成定制化的声音形象。用户可以随意输入声学属性、人设描述、背景信息等自由描述,轻松创造出符合自己期望的声音形象。

可控生成:在InstructTTS-Eval评测中,Qwen3-TTS的综合表现显著优于GPT-4o-mini-tts和Mimo-audio-7b-instruct,在角色扮演测试中也超越了Gemini-2.5-pro-preview-tts,显示出精准的指令跟随与生成控制能力。


高效语音克隆:Qwen3-TTS支持仅凭约3秒的音频样本实现高质量的语音克隆,并可基于克隆出的音色生成多语种语音。同时,模型对复杂文本和带有噪音的原始音频都具有较高的鲁棒性。

多语种声音克隆:在MiniMax TTS多语言测试集上,Qwen3-TTS在中文、英文、法语、意大利语等各项评测中的内容稳定性优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview;其平均词错误率(WER)在所有参评模型中排名第一。


相关文档:Qwen3-TTS-Voice-Design API 文档

相关文档:Qwen3-TTS-Voice-Clone API 文档

来源:https://www.163.com/dy/article/KHII66RM0511B8LM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

举证难与盗声困境:AI模仿维权路径指南
科技数码
举证难与盗声困境:AI模仿维权路径指南

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵

热心网友
03.31
AI音乐工作站融资百万美元,智能吉他团队再获数亿营收
科技数码
AI音乐工作站融资百万美元,智能吉他团队再获数亿营收

作者|黄楠编辑|袁斯来编者按:当出海越来越成为一家中国公司核心战略时,如何征战全球市场就成为一个极其专业的话题。在全球化的演变中,已有不少中国品牌站立潮头。鉴于此,硬氪特推出「Insight全球」专

热心网友
03.10
MiniMax推出OpenClaw新技能,实现音色定制与完整歌曲创作
AI
MiniMax推出OpenClaw新技能,实现音色定制与完整歌曲创作

IT之家 3 月 9 日消息,今日,MiniMax 宣布将 MiniMax Speech 语音模型和 Music 音乐模型的开放平台接口进行了深度封装,并正式上架到了 OpenClaw 生态中。IT

热心网友
03.09
卡西欧SX-C1复古采样器体验:16键打击垫与掌机外观设计解析
娱乐
卡西欧SX-C1复古采样器体验:16键打击垫与掌机外观设计解析

IT之家 1 月 25 日消息,据科技媒体 The Verge 昨天报道,卡西欧 SX-C1 复古采样器原型机最近在 NAMM 展会亮相,外观看起来像是把任天堂 Game Boy 和罗兰 SP-40

热心网友
01.25
华为FreeClip 2耳机支持豆包App唤醒,适配安卓
科技数码
华为FreeClip 2耳机支持豆包App唤醒,适配安卓

IT之家 1 月 25 日消息,华为正式显示,华为 FreeClip 2 耳夹耳机在 Android 设备上有与豆包联动的能力,可以通过手势和语音的唤醒形式使用豆包 App,实现与豆包 App 的问

热心网友
01.25

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Jane Street反击Terraform内线交易诉讼:Do Kwon已认罪!Terra生态崩盘法律责任早有归属
web3.0
Jane Street反击Terraform内线交易诉讼:Do Kwon已认罪!Terra生态崩盘法律责任早有归属

Jane Street这次出手,可以说是雷霆一击。2026年4月24日,这家全球顶尖的高频交易商向纽约南区联邦法院递交了一份驳回动议,目标非常明确:不仅要驳回诉讼,还要“with prejudice”——这意味着一旦成功,Terraform的破产管理人Todd Snyder将彻底失去再次起诉的机会,

热心网友
04.26
怎样优化求职简历
办公文书
怎样优化求职简历

怎样优化求职简历 个人简历,这块毕业生敲开职场大门的“敲门砖”,分量有多重,不言而喻。那么,一份怎样的简历才能真正抓住招聘方的眼球,获得他们的青睐呢? 应届生个人简历要突出职业感 简历是什么?它是面试之前,用人单位了解你的首要窗口。因此,如何在有限的篇幅里,全面、立体地展示自己的综合能力,就成了关键

热心网友
04.26
专家怎样帮你分析简历
办公文书
专家怎样帮你分析简历

为什么是你?为什么是我? 一个共识在求职者中已经相当普遍:HR筛选简历的时间,真的非常有限。粗略浏览可能只需15秒,即便对感兴趣的简历,深入阅读也往往不超过两分钟。那么问题来了,在这电光火石之间,决定一份简历是“淘汰”、“待定”还是“优秀”的关键,究竟是什么? Dell(中国)的人力资源经理Jess

热心网友
04.26
10条写好简历的建议
办公文书
10条写好简历的建议

让简历外表格外醒目 简历的版式设计,其重要性常常被低估。它不需要多么花哨,但必须足够醒目,能在第一时间抓住阅读者的眼球。不妨审视一下你简历上的空白区域——这些留白和边框恰恰是强调正文、引导视觉流向的利器。巧妙地运用各种字体格式,比如斜体、大写、下划线,或者采用首字突出、首行缩进等排版技巧,都能让信息

热心网友
04.26
简历制作的几点要点
办公文书
简历制作的几点要点

拥有一份黄金简历:应届生求职的必备敲门砖 对于应届生来说,不论寻找什么性质的工作,一份含金量高的简历,都是吸引HR眼球、叩开机会之门的必备敲门砖。那么,关键问题来了:如何才能制作出这样一份高质量的简历呢?现实情况似乎并不乐观。近期某网站的求职调查揭示了一个普遍困境:超过七成的应届生,其实并不清楚简历

热心网友
04.26