首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Qwen3-TTS上新:阿里通义自研语音模型,可复刻可定制

Qwen3-TTS上新:阿里通义自研语音模型,可复刻可定制

热心网友
95
转载
2025-12-24

12月24日,据IT之家消息,阿里通义今日正式发布Qwen3-TTS家族的两款新模型:声音创作模型Qwen3-TTS-VD-Flash和声音克隆模型Qwen3-TTS-VC-Flash。两款模型的核心亮点整理如下:

声音创作:Qwen3-TTS-VD-Flash能够理解复杂的自然语言指令,实现对音色、韵律、情感乃至人物设定的精细化调控,真正掌握从“说什么”到“如何说”的完整表达。用户得以自由定义想要的声音效果,彻底摆脱只能依赖现有音色进行克隆,或从有限预设音色库中做选择的束缚。在InstructTTS-Eval评测中,其综合表现显著优于GPT-4o-mini-tts和Mimo-audio-7b-instruct;在角色扮演测试中,其表现也超越了Gemini-2.5-pro-preview-tts。

声音克隆:Qwen3-TTS-VC-Flash支持仅需3秒音频即可完成高质量的语音克隆,并能在克隆音色的基础上,流畅生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等全球十大主流语言的语音。在MiniMax TTS多语言测试集上,其平均词错误率(WER)全面低于MiniMax、ElevenLabs及GPT-4o-Audio-Preview,展现出优异的准确性。

高表现力:无论是Qwen3-TTS-VD-Flash还是Qwen3-TTS-VC-Flash,均能生成高度拟人化、富有表现力的音色。它们能够稳定可靠地输出与输入文本高度契合的语音内容,并能根据文本语义自动调节语气节奏,呈现出自然生动的表达效果。

鲁棒的文本能力:Qwen3-TTS-VD-Flash和Qwen3-TTS-VC-Flash具备强大的文本解析能力,可自动处理复杂的文本结构,精准提取关键信息。面对多样化、非规范的文本格式时,两者均展现出较强的鲁棒性(IT之家注:robustness,指系统在内部结构或外部环境发生变化时,维持功能稳定运行的能力)。

定制化声音形象:Qwen3-TTS支持通过自然语言描述生成定制化的声音形象。用户可以随意输入声学属性、人设描述、背景信息等自由描述,轻松创造出符合自己期望的声音形象。

可控生成:在InstructTTS-Eval评测中,Qwen3-TTS的综合表现显著优于GPT-4o-mini-tts和Mimo-audio-7b-instruct,在角色扮演测试中也超越了Gemini-2.5-pro-preview-tts,显示出精准的指令跟随与生成控制能力。


高效语音克隆:Qwen3-TTS支持仅凭约3秒的音频样本实现高质量的语音克隆,并可基于克隆出的音色生成多语种语音。同时,模型对复杂文本和带有噪音的原始音频都具有较高的鲁棒性。

多语种声音克隆:在MiniMax TTS多语言测试集上,Qwen3-TTS在中文、英文、法语、意大利语等各项评测中的内容稳定性优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview;其平均词错误率(WER)在所有参评模型中排名第一。


相关文档:Qwen3-TTS-Voice-Design API 文档

相关文档:Qwen3-TTS-Voice-Clone API 文档

来源:https://www.163.com/dy/article/KHII66RM0511B8LM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

举证难与盗声困境:AI模仿维权路径指南
科技数码
举证难与盗声困境:AI模仿维权路径指南

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵

热心网友
03.31
AI音乐工作站融资百万美元,智能吉他团队再获数亿营收
科技数码
AI音乐工作站融资百万美元,智能吉他团队再获数亿营收

作者|黄楠编辑|袁斯来编者按:当出海越来越成为一家中国公司核心战略时,如何征战全球市场就成为一个极其专业的话题。在全球化的演变中,已有不少中国品牌站立潮头。鉴于此,硬氪特推出「Insight全球」专

热心网友
03.10
MiniMax推出OpenClaw新技能,实现音色定制与完整歌曲创作
AI
MiniMax推出OpenClaw新技能,实现音色定制与完整歌曲创作

IT之家 3 月 9 日消息,今日,MiniMax 宣布将 MiniMax Speech 语音模型和 Music 音乐模型的开放平台接口进行了深度封装,并正式上架到了 OpenClaw 生态中。IT

热心网友
03.09
卡西欧SX-C1复古采样器体验:16键打击垫与掌机外观设计解析
娱乐
卡西欧SX-C1复古采样器体验:16键打击垫与掌机外观设计解析

IT之家 1 月 25 日消息,据科技媒体 The Verge 昨天报道,卡西欧 SX-C1 复古采样器原型机最近在 NAMM 展会亮相,外观看起来像是把任天堂 Game Boy 和罗兰 SP-40

热心网友
01.25
华为FreeClip 2耳机支持豆包App唤醒,适配安卓
科技数码
华为FreeClip 2耳机支持豆包App唤醒,适配安卓

IT之家 1 月 25 日消息,华为正式显示,华为 FreeClip 2 耳夹耳机在 Android 设备上有与豆包联动的能力,可以通过手势和语音的唤醒形式使用豆包 App,实现与豆包 App 的问

热心网友
01.25

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

免费在线OCR工具TextIn使用指南与功能详解
AI
免费在线OCR工具TextIn使用指南与功能详解

在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等

热心网友
05.19
AI在线PPT美化工具 智能优化演示文稿设计
AI
AI在线PPT美化工具 智能优化演示文稿设计

还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化

热心网友
05.19
超办AI平台:集成主流大模型的一站式解决方案
AI
超办AI平台:集成主流大模型的一站式解决方案

在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非

热心网友
05.19
论文关键词如何激发学术灵感与创新思路
AI
论文关键词如何激发学术灵感与创新思路

学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提

热心网友
05.19
造物云AI在线3D营销设计平台:一站式创意解决方案
AI
造物云AI在线3D营销设计平台:一站式创意解决方案

在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新

热心网友
05.19