首页 游戏 软件 资讯 排行榜 专题
首页
AI
通义千问Qwen3-TTS两款AI语音模型发布:支持定制与声音复刻

通义千问Qwen3-TTS两款AI语音模型发布:支持定制与声音复刻

热心网友
89
转载
2025-12-24

12月24日消息,阿里通义今日正式发布Qwen3-TTS家族的两款全新模型:音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。两款模型的主要特性如下:

音色创造:Qwen3-TTS-VD-Flash支持用户通过复杂、自然的语言指令输入,实现对音色、韵律、情感乃至人设的精细化调控。它让用户能够全面掌控从“说什么”到“如何说”的整个过程,自由定义心中想要的语音特质。这彻底改变了以往只能克隆现有音色,或是在有限预设音色库中进行选择的局面。
在InstructTTS-Eval评测中,其综合表现显著优于GPT-4o-mini-tts和Mimo-audio-7b-instruct;在角色扮演测试中也超越了Gemini-2.5-pro-preview-tts。

音色克隆:Qwen3-TTS-VC-Flash支持仅需3秒音频即可完成音色克隆,并能基于克隆出的音色,生成涵盖中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等10大主流语言的语音。
在MiniMax TTS Multilingual Test Set上,其平均词错误率(WER)全面低于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

高表现力:无论是Qwen3-TTS-VD-Flash还是Qwen3-TTS-VC-Flash,都具备高度拟人化的自然音色。它们能够稳定、可靠地输出与文本内容高度契合的语音,并依据文本语义自动调节语气节奏,呈现出自然生动的表达效果。

鲁棒的文本能力:两款模型均拥有强大的文本解析能力,可自动处理复杂文本结构,精准提取关键信息。对于多样化、非规范化的文本格式,都展现出较强的鲁棒性(注:鲁棒性指系统在面临内部结构或外部环境的变化时,维持功能稳定运行的能力)。

Qwen3-TTS-VD-Flash

该模型支持用户通过自然语言描述来生成定制化的音色形象。您只需随意输入有关声学属性、人设描述、背景信息等自由描述,即可轻松创造出自己期望的语音形象。

可控的生成质量:在InstructTTS-Eval评测中,Qwen3-TTS的综合表现显著优于GPT-4o-mini-tts和Mimo-audio-7b-instruct;在角色扮演测试中也超越了Gemini-2.5-pro-preview-tts。

阿里通义 Qwen3-TTS 家族上新两款 AI 模型:声音不仅能复制,还可以定制

Qwen3-TTS-VC-Flash

该模型支持通过自然语音进行3秒级别的音色克隆。基于克隆出的音色,可生成多语种音频,同时对复杂文本和带有环境背景音的“野生”音频都具有较高的处理鲁棒性。

多语种音色克隆:在MiniMax TTS Multilingual Test Set上,Qwen3-TTS在中、英、法、意等语种的内容稳定性方面优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview;其平均词错误率(WER)也位居第一。

阿里通义 Qwen3-TTS 家族上新两款 AI 模型:声音不仅能复制,还可以定制

Qwen3-TTS-Voice-Design API 文档:

https://www.alibabacloud.com/help/zh/model-studio/qwen-tts-voice-design?spm=a2ty_o06.30285417.0.0.56a0c9216Ey6VM

Qwen3-TTS-Voice-Clone API 文档:

https://www.alibabacloud.com/help/zh/model-studio/qwen-tts-voice-cloning?spm=a2ty_o06.30285417.0.0.56a0c921WnHNlN

来源:https://www.ithome.com/0/907/705.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Qwen3-TTS上新:阿里通义自研语音模型,可复刻可定制
科技数码
Qwen3-TTS上新:阿里通义自研语音模型,可复刻可定制

IT之家 12 月 24 日消息,阿里通义今日官宣,Qwen3-TTS 家族新推出两款模型,音色创造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。

热心网友
12.24
通义千问Qwen3-TTS两款AI语音模型发布:支持定制与声音复刻
AI
通义千问Qwen3-TTS两款AI语音模型发布:支持定制与声音复刻

12 月 24 日消息,阿里通义今日官宣,Qwen3-TTS 家族新推出两款模型,音色创造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。附模型主

热心网友
12.24
阿里万相2.6上线,国内首推角色扮演功能
AI
阿里万相2.6上线,国内首推角色扮演功能

12 月 16 日消息,阿里发布新一代万相 2 6 系列模型,该系列模型面向专业影视制作和图像创作场景进行了全面升级,全新的万相 2 6 是国内首个支持角色扮演功能的视频模型。该模型同时支持音画同

热心网友
12.16
阿里通义Qwen3-VL开源4B与8B模型,超越GPT-5 Nano
AI
阿里通义Qwen3-VL开源4B与8B模型,超越GPT-5 Nano

10 月 15 日消息,阿里通义今日官宣 Qwen3-VL 系列再添新成员 ——Dense 架构的 Qwen3-VL-8B、Qwen3-VL-4B 模型开源上线。Qwen3-VL-4B 8B

热心网友
10.16
阿里通义招募AI大牛,将研发下一代大模型
科技数码
阿里通义招募AI大牛,将研发下一代大模型

9月30日消息,据媒体爆料,全球顶尖AI科学家、IEEE Fellow许主洪(Steven Hoi)已加盟阿里通义,转向通义大模型的相关研发工作。许主洪拥有超20年AI产业和学术经验,是新加坡管理大

热心网友
09.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

免费在线OCR工具TextIn使用指南与功能详解
AI
免费在线OCR工具TextIn使用指南与功能详解

在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等

热心网友
05.19
AI在线PPT美化工具 智能优化演示文稿设计
AI
AI在线PPT美化工具 智能优化演示文稿设计

还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化

热心网友
05.19
超办AI平台:集成主流大模型的一站式解决方案
AI
超办AI平台:集成主流大模型的一站式解决方案

在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非

热心网友
05.19
论文关键词如何激发学术灵感与创新思路
AI
论文关键词如何激发学术灵感与创新思路

学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提

热心网友
05.19
造物云AI在线3D营销设计平台:一站式创意解决方案
AI
造物云AI在线3D营销设计平台:一站式创意解决方案

在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新

热心网友
05.19