首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里通义百灵上新语音模型:3秒录音即可克隆9种语言及18种方言

阿里通义百灵上新语音模型:3秒录音即可克隆9种语言及18种方言

热心网友
29
转载
2025-12-15

12月15日,通义大模型官方放出最新消息,宣布两款“百聆”语音模型正式开源,并迎来重磅升级。据介绍,只需录制3秒你的声音,就能让它无缝切换至不同语种、方言乃至情绪——无论是普通话、粤语、日语、英语的日常表达,还是开心、愤怒等情绪语调,它都能轻松驾驭,覆盖9种通用语言与18种方言。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

此次升级中,Fun-CosyVoice3模型实现了多方面能力提升:首包延迟降低了一半,中英文混合语音的识别准确率翻倍,并支持9种语言、18种方言口音、跨语种克隆及情感控制;Fun-ASR模型能力同样增强:在嘈杂环境下的识别准确率达到93%,新增歌词与演唱识别功能,可自由混说31种语言、覆盖多种方言口音,同时将其流式识别模型的首字延迟降至160毫秒。开源版本方面,Fun-CosyVoice3(0.5B)提供零样本音色克隆能力,支持本地部署与二次开发;Fun-ASR-Nano(0.8B)作为轻量化版本,推理成本更低,模型完全开源,支持本地部署与定制化微调。

根据我们获得的最新进展,本次Fun-CosyVoice3大模型完成了多项关键升级:

首包延迟降低50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时交互场景;中英文混合语音的词错误率相比之前大幅下降56.4%,无论是包含专业术语、大小写混排的文本,还是需要进行语码转换的句子,都能精准且自然地发音;在零样本语音合成评测中,内容一致性与音色相似度全面提升,复杂测试场景下的字符错误率相对降低26%,接近真人录音水平;支持9种通用语言、18种中文方言、9种情感控制,并具备跨语种音色复制能力——仅用一段普通话录音,即可生成粤语、日语、英语等其他语言的语音,且音色保持高度一致。

而此次开源的Fun-CosyVoice3-0.5B模型提供了零样本音色克隆功能,你只需提供一段3秒以上的参考音频,即可复刻其音色并合成新的语音,同时支持本地部署和二次开发。

Fun-ASR让AI真正“听得懂”。其基于数千小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地。最新版本重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字延迟降低到160毫秒。


Fun-CosyVoice3-0.5B开源地址:

https://github.com/FunAudioLLM/CosyVoice(GitHub)https://funaudiollm.github.io/cosyvoice3/(GitHub.io)https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验 demo)https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)

Fun-ASR-Nano-0.8B开源地址:

https://github.com/FunAudioLLM/Fun-ASR(GitHub)https://funaudiollm.github.io/funasr/(GitHub.io)https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验 demo)https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验 demo)https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)

来源:https://www.163.com/dy/article/KGR724M60511B8LM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepZang发布:全球首个藏语AI大模型开启智能时代
科技数码
DeepZang发布:全球首个藏语AI大模型开启智能时代

IT之家 3 月 16 日消息,据《西藏日报》报道,3 月 15 日,全球首个藏语大语言模型 DeepZang 在拉萨正式发布,标志着我国在民族语言 AI 领域实现从“跟跑”到“领跑”的战略性跨越,

热心网友
03.16
杨紫自曝压力大突破自我,新剧挑战两门方言
娱乐
杨紫自曝压力大突破自我,新剧挑战两门方言

参加活动时自曝在新剧里要完全说上海话,还要学习四川方言!拍一部剧要学习两种方言,杨紫自曝压力好大,她真的一直都在突破自己!近日杨紫又上热搜了!其一是因为她直接顶着新剧《玉兰花开君再来》里的民国微卷短

热心网友
03.01
小米电视小爱更新:支持粤语河南话等多方言交互
娱乐
小米电视小爱更新:支持粤语河南话等多方言交互

【CNMO科技消息】近日,小米电视小爱迎来重要功能更新,重点围绕方言交互、视频问答、应用商店控制等场景进行优化,进一步提升用户智能语音体验。此次更新需将小米电视系统升级至小米澎湃OS 3,并建议将电

热心网友
01.28
小米电视AI新更:视频问答与多方言交互功能详解
娱乐
小米电视AI新更:视频问答与多方言交互功能详解

IT之家 1 月 26 日消息,小米电视今日发布超级小爱近期更新功能一览,最新建议将电视小爱升级至 V5 8 版本。IT之家整理内容如下:新增方言对话模式,支持识别粤语、东北话、四川话、河南话,并回

热心网友
01.26
基于阿里千问,乌干达如何打造本土AI大模型
科技数码
基于阿里千问,乌干达如何打造本土AI大模型

12月19日,据外媒报道,乌干达近日正式发布本土大语言模型 “向日葵(Sunflower)”,该模型基于阿里开源的千问大模型开发,旨在通过先进的AI技术弥合数字鸿沟,服务乌干达4600万人口,特别是

热心网友
12.20

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

Windows 2000远程桌面设置指南:5步轻松实现连接配置
电脑教程
Windows 2000远程桌面设置指南:5步轻松实现连接配置

本讲义讲解如何在Windows 2000操作系统中设置并启用远程桌面连接功能。1、在Windows 2000系统环境下,需先放入正式版Windows XP或Windows Serv

热心网友
03.29
番茄免费小说删除书籍方法及完整步骤详解
手机教程
番茄免费小说删除书籍方法及完整步骤详解

在番茄免费小说上阅读时,有时我们可能会因为各种原因想要删除已下载的书籍。下面就为大家详细介绍一下番茄免费小说书籍删除的操作方法。首先,打开番茄免费小说应用程序。进入主界面后,点击右

热心网友
03.29
无双武藏羊蹄山之魂打法攻略
游戏攻略
无双武藏羊蹄山之魂打法攻略

在网上热门游戏中,“羊蹄山之魂无双武藏”的打法颇具挑战性。以下为你带来详细攻略。首先,了解无双武藏的技能特点至关重要。他拥有多种攻击方式,包括近战的快速连击和范围较大的强力横扫。要

热心网友
03.29
联想小新Pad Pro 13成2K价位优选:价格亲民性能不减
娱乐
联想小新Pad Pro 13成2K价位优选:价格亲民性能不减

PChome消息,近期,消费电子市场正经历一场由AI算力抢占产能、存储成本持续攀升所引发的大范围“涨价潮”,内存价格的上涨已迅速传导至包括手机、笔记本电脑、平板电脑在内的各类终端产品,导致市场售价普

热心网友
03.29
TCL广州空调智慧工厂投产,每7秒下线一台空调
业界动态
TCL广州空调智慧工厂投产,每7秒下线一台空调

3月29日消息,据媒体报道,TCL空调广州智能制造基地近日在广州南沙正式投产。在AI智造能力、零碳运营理念与全场景智慧生态的共同驱动下,该基地2026年预计实现产值30亿元,“十五五”期间目标突破1

热心网友
03.29