首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里通义百灵上新语音模型:3秒录音即可克隆9种语言及18种方言

阿里通义百灵上新语音模型:3秒录音即可克隆9种语言及18种方言

热心网友
77
转载
2025-12-15

12月15日,通义大模型官方放出最新消息,宣布两款“百聆”语音模型正式开源,并迎来重磅升级。据介绍,只需录制3秒你的声音,就能让它无缝切换至不同语种、方言乃至情绪——无论是普通话、粤语、日语、英语的日常表达,还是开心、愤怒等情绪语调,它都能轻松驾驭,覆盖9种通用语言与18种方言。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

此次升级中,Fun-CosyVoice3模型实现了多方面能力提升:首包延迟降低了一半,中英文混合语音的识别准确率翻倍,并支持9种语言、18种方言口音、跨语种克隆及情感控制;Fun-ASR模型能力同样增强:在嘈杂环境下的识别准确率达到93%,新增歌词与演唱识别功能,可自由混说31种语言、覆盖多种方言口音,同时将其流式识别模型的首字延迟降至160毫秒。开源版本方面,Fun-CosyVoice3(0.5B)提供零样本音色克隆能力,支持本地部署与二次开发;Fun-ASR-Nano(0.8B)作为轻量化版本,推理成本更低,模型完全开源,支持本地部署与定制化微调。

根据我们获得的最新进展,本次Fun-CosyVoice3大模型完成了多项关键升级:

首包延迟降低50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时交互场景;中英文混合语音的词错误率相比之前大幅下降56.4%,无论是包含专业术语、大小写混排的文本,还是需要进行语码转换的句子,都能精准且自然地发音;在零样本语音合成评测中,内容一致性与音色相似度全面提升,复杂测试场景下的字符错误率相对降低26%,接近真人录音水平;支持9种通用语言、18种中文方言、9种情感控制,并具备跨语种音色复制能力——仅用一段普通话录音,即可生成粤语、日语、英语等其他语言的语音,且音色保持高度一致。

而此次开源的Fun-CosyVoice3-0.5B模型提供了零样本音色克隆功能,你只需提供一段3秒以上的参考音频,即可复刻其音色并合成新的语音,同时支持本地部署和二次开发。

Fun-ASR让AI真正“听得懂”。其基于数千小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地。最新版本重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字延迟降低到160毫秒。


Fun-CosyVoice3-0.5B开源地址:

https://github.com/FunAudioLLM/CosyVoice(GitHub)https://funaudiollm.github.io/cosyvoice3/(GitHub.io)https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验 demo)https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)

Fun-ASR-Nano-0.8B开源地址:

https://github.com/FunAudioLLM/Fun-ASR(GitHub)https://funaudiollm.github.io/funasr/(GitHub.io)https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验 demo)https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验 demo)https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)

来源:https://www.163.com/dy/article/KGR724M60511B8LM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里通义实验室推出语音识别大模型Fun-ASR1.5
科技数码
阿里通义实验室推出语音识别大模型Fun-ASR1.5

阿里通义实验室发布Fun-ASR1 5:语音识别大模型实现多语言与方言精准转写 2024年4月20日,阿里通义实验室正式推出新一代语音识别大模型Fun-ASR1 5。此次发布的模型,在“大而全”的技术路线上实现了显著突破。它基于统一的大模型架构,仅凭单一模型即可覆盖以往需要多个专用模型才能应对的复杂

热心网友
04.20
AI数据库实战指南:加入上海闲聊数据库的方法
科技数码
AI数据库实战指南:加入上海闲聊数据库的方法

想让AI教孩子学会“侬好”?新技术如何助力上海话传承?日前,由华东师范大学国际汉语文化学院与阿里巴巴团队联合发起的上海方言保护计划正式启动,希望通过构建高质量的上海方言智能语音数据库,来助力AI听懂

热心网友
04.01
DeepZang发布:全球首个藏语AI大模型开启智能时代
科技数码
DeepZang发布:全球首个藏语AI大模型开启智能时代

IT之家 3 月 16 日消息,据《西藏日报》报道,3 月 15 日,全球首个藏语大语言模型 DeepZang 在拉萨正式发布,标志着我国在民族语言 AI 领域实现从“跟跑”到“领跑”的战略性跨越,

热心网友
03.16
杨紫自曝压力大突破自我,新剧挑战两门方言
娱乐
杨紫自曝压力大突破自我,新剧挑战两门方言

参加活动时自曝在新剧里要完全说上海话,还要学习四川方言!拍一部剧要学习两种方言,杨紫自曝压力好大,她真的一直都在突破自己!近日杨紫又上热搜了!其一是因为她直接顶着新剧《玉兰花开君再来》里的民国微卷短

热心网友
03.01
小米电视小爱更新:支持粤语河南话等多方言交互
娱乐
小米电视小爱更新:支持粤语河南话等多方言交互

【CNMO科技消息】近日,小米电视小爱迎来重要功能更新,重点围绕方言交互、视频问答、应用商店控制等场景进行优化,进一步提升用户智能语音体验。此次更新需将小米电视系统升级至小米澎湃OS 3,并建议将电

热心网友
01.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

我国刀具市场发展调研报告
办公文书
我国刀具市场发展调研报告

我国刀具市场发展调研报告 在当今制造业持续升级的背景下,市场调研报告的重要性日益凸显。一份结构清晰、数据翔实的报告,能为决策提供关键参考。以下这份关于我国刀具市场的调研报告,旨在梳理现状、剖析问题,并为未来发展提供借鉴。 当前,国内刀具年销售额约为145亿元,其中硬质合金刀具占比不足25%。这一比例

热心网友
04.27
国内首份空净市场调研报告
办公文书
国内首份空净市场调研报告

国内首份空净市场调研报告 在公众健康意识日益增强的今天,市场报告的重要性不言而喻。一份结构清晰、数据翔实的报告,能为行业描绘出精准的航图。那么,一份优秀的市场调研报告究竟该如何呈现?近期发布的这份国内空气净化器行业蓝皮书,或许能提供一个范本。 市场增长的势头有多强劲?数据显示,国内空气净化器市场正驶

热心网友
04.27
水利工程供水管理调研报告
办公文书
水利工程供水管理调研报告

水利工程供水管理调研报告 在各类报告日益成为工作常态的今天,撰写一份扎实的调研报告,关键在于厘清现状、找准问题、提出思路。这份关于水利工程供水管理的报告,旨在系统梳理情况,为后续决策提供参考。 一、基本情况 横跨区域的**水库及八座枢纽拦河闸,构成了**运河流域防洪与兴利供水的骨干工程体系。自投入运

热心网友
04.27
财产保全申请书范本
办公文书
财产保全申请书范本

财产保全申请书范本 一份规范的财产保全申请书,是启动财产保全程序的关键文书。其核心在于清晰、准确地列明各方信息、诉求与依据。通常,申请书的结构是固定的,但具体内容需要根据案件事实来填充。下面,我们通过几个典型的范本来拆解其中的要点。 篇一:通用格式范本 首先来看一个通用模板。这个模板清晰地勾勒出了申

热心网友
04.27
暑假大学生防台风社会实践调研报告范文
办公文书
暑假大学生防台风社会实践调研报告范文

“防台抗台”活动由学院的积极分子组成,他们踊跃报名,利用暑期时间奉献自己的青春,为社会尽一份力量。 带队的学院分团委书记吕老师点出了活动的深层价值:这不仅是一次能力锻炼,更是学生认识社会、融入社会并最终回馈社会的关键一步。经过这番历练,团队友谊愈发坚固,协作精神显著增强,感恩之心也油然而生。 青春洋

热心网友
04.27