游乐游手机版
首页/科技数码/文章详情

阿里通义百灵上新语音模型:3秒录音即可克隆9种语言及18种方言

时间:2025-12-15 16:51
IT之家 12 月 15 日消息,今天下午,通义大模型通过最新公众号宣布,两款“百聆”语音模型正式开源,两款模型迎来升级。根据介绍,其只需 3 秒录音,就能让你的声音无缝切换语种、方言与情绪 ——

12月15日,通义大模型官方放出最新消息,宣布两款“百聆”语音模型正式开源,并迎来重磅升级。据介绍,只需录制3秒你的声音,就能让它无缝切换至不同语种、方言乃至情绪——无论是普通话、粤语、日语、英语的日常表达,还是开心、愤怒等情绪语调,它都能轻松驾驭,覆盖9种通用语言与18种方言。

此次升级中,Fun-CosyVoice3模型实现了多方面能力提升:首包延迟降低了一半,中英文混合语音的识别准确率翻倍,并支持9种语言、18种方言口音、跨语种克隆及情感控制;Fun-ASR模型能力同样增强:在嘈杂环境下的识别准确率达到93%,新增歌词与演唱识别功能,可自由混说31种语言、覆盖多种方言口音,同时将其流式识别模型的首字延迟降至160毫秒。开源版本方面,Fun-CosyVoice3(0.5B)提供零样本音色克隆能力,支持本地部署与二次开发;Fun-ASR-Nano(0.8B)作为轻量化版本,推理成本更低,模型完全开源,支持本地部署与定制化微调。

根据我们获得的最新进展,本次Fun-CosyVoice3大模型完成了多项关键升级:

首包延迟降低50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时交互场景;中英文混合语音的词错误率相比之前大幅下降56.4%,无论是包含专业术语、大小写混排的文本,还是需要进行语码转换的句子,都能精准且自然地发音;在零样本语音合成评测中,内容一致性与音色相似度全面提升,复杂测试场景下的字符错误率相对降低26%,接近真人录音水平;支持9种通用语言、18种中文方言、9种情感控制,并具备跨语种音色复制能力——仅用一段普通话录音,即可生成粤语、日语、英语等其他语言的语音,且音色保持高度一致。

而此次开源的Fun-CosyVoice3-0.5B模型提供了零样本音色克隆功能,你只需提供一段3秒以上的参考音频,即可复刻其音色并合成新的语音,同时支持本地部署和二次开发。

Fun-ASR让AI真正“听得懂”。其基于数千小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地。最新版本重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字延迟降低到160毫秒。


Fun-CosyVoice3-0.5B开源地址:

https://github.com/FunAudioLLM/CosyVoice(GitHub)https://funaudiollm.github.io/cosyvoice3/(GitHub.io)https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验 demo)https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)

Fun-ASR-Nano-0.8B开源地址:

https://github.com/FunAudioLLM/Fun-ASR(GitHub)https://funaudiollm.github.io/funasr/(GitHub.io)https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验 demo)https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验 demo)https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)

来源:https://www.163.com/dy/article/KGR724M60511B8LM.html
上一篇Mimicat组织数据泄露详情:核心成员、空壳公司与千台受控系统曝光 下一篇银河E5售价下探十万内,续航超600公里成最大亮点
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。