阿里千问语音新模型:动物原声说人话
12月24日消息,阿里对其语音模型家族Qwen3-TTS进行了全新升级,同时推出了两款重磅新品:支持音色创造的Qwen3-TTS-VD和专注音色克隆的Qwen3-TTS-VC。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在生成效果方面,这两款新模型的整体表现已经明显优于GPT-4o。
最新的Qwen3-TTS模型实现了用户自主设计声音和像素级音色模仿的强大能力,甚至连动物的“原声”也能被重现,开口说出人话。
其生成语音音色自然、效果稳定、效率极高,将有力推动语音大模型在有声小说、AI漫画、影視配音等多个专业领域的商业化应用。
其中,音色创造模型支持用户通过简单的自然语言描述,即可生成定制化的声音形象,具备极强的可控生成能力。
在指令遵循评测InstructTTS-Eval中,Qwen3-TTS的综合表现显著优于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同类竞品。
而在强调表达一致性与沉浸感的角色扮演测试中,该模型的整体效果更是超越了Gemini-2.5-pro-preview-tts。

音色克隆模型则专注于“声音模仿”这一核心功能,仅需3秒的原始语音样本,便能精准复刻出原始声线。
在MiniMax TTS Multilingual Test Set测试集中,Qwen3-TTS-VC展现了其在多语言语音准确性与稳定性方面的显著优势。
其平均词错误率(WER)指标表现突出,整体结果全面优于MiniMax、ElevenLabs以及GPT-4o-Audio-Preview。

此外,Qwen3-TTS-VC还能自动生成英语、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等9种语言的语音。
更值得一提的是,它连动物的叫声也能复刻。用户只需录入家中宠物的原始叫声,就能利用模型让它“开口说人话”。
目前,两款模型均在阿里云百炼平台上架了Flash版本API,响应速度极快,完全能够满足工业级的语音合成需求。
千问语音生成模型系列Qwen3-TTS仍在持续升级,目前已支持50种音色、10大主流语言,以及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等8大方言,能够真实还原各地的口音特色与语言神韵。

相关攻略
文|财华社2025年,美团(03690 HK)交出了一份喜忧参半的财报:一边是全年GTV(总成交额)、交易量实现双位数增长,交易用户数、消费频次与客单价同步刷新纪录,海外业务Keeta首次实现单季正
文 | 互联网评想象一下,北京望京,一个寻常的工作日中午。一位美团用户打开App,对着新上线的AI助手“小团”发出了一条语音指令:帮我在中关村和望京中间找一家川菜馆,口味偏辣,方便停车,我和朋友只有
(文 陈济深 编辑 张广凯) "AI落地不只是一道算法题,更是一道工程题。 "3月27日的腾讯云城市峰会上海站上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生这样概括腾讯对智能体时代的判断。腾
这场即时零售的停战权,不在美团手上。作者 | 彻诺来源 | 盒饭财经(ID:daxiongfan)头图及封面来源 | 网络及即梦制作美团亏损,其实在意料之内。3月26日,美团(03690 HK)公
3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长
热门专题
热门推荐
如果你最近关注过手机市场,应该知道一件事:内存涨价了,而且涨得挺狠,相比之前,同配置的内存成本已经涨了近1000块。这对中低端机型的冲击最明显,本来利润就薄,成本一涨,要么涨价,要么砍配置,对于想换
鼠标指针在PPT演示中消失通常因“指针选项”设为隐藏,可通过右键菜单选“可见”、按Ctrl+A快捷键、取消“自动隐藏鼠标指针”设置、Alt+Tab切换窗口重启渲染,或检查演示者视图
豪威集团近日发布最新财务公告,显示2025年业绩实现显著增长。全年营业收入达288 55亿元,较上年提升12 14%;净利润突破40 45亿元,同比增长21 73%。这一成绩主要得益于半导体设计业务
3月29日,国内首条年产能万台级的人形机器人自动化产线在广东正式投入使用,人形机器人规模化量产能力取得重大突破。该产线年产能突破一万台,可实现每30分钟下线一台人形机器人,高效满足市场规模化交付需求
今日,华沿机器人正式在港交所挂牌上市,开启了其资本市场的新征程。此次上市,华沿机器人发售价定为每股17 00港元,折合人民币约14 99元。开盘时,股价为16 8港元,即人民币14 82元,而收盘价





