首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里通义千问语音模型新版发布:3秒录音复制9种语言及18种方言

阿里通义千问语音模型新版发布:3秒录音复制9种语言及18种方言

热心网友
51
转载
2025-12-16

12月15日消息,据通义大模型官方公众号今日下午宣布,两款"百聆"语音模型现已正式开源,并且迎来了全面升级。据介绍,该模型只需3秒录音样本,就能让你的声音无缝切换多达9种通用语言和18种地方方言,同时还能精准复刻说话者的情绪——无论是普通话、粤语、日语、英语,还是开心、愤怒等语气,都能轻松驾驭。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

能力升级

Fun-CosyVoice3 模型升级:首次发声延迟降低50%,中英文混合语音识别准确率显著提升,新增支持9种语言、18种方言口音,并具备跨语种声音克隆与情感控制能力;

Fun-ASR 模型能力增强:在噪声环境下的识别准确率高达93%,新增歌词与演唱识别功能,支持31种语言自由混合输入、并覆盖多种方言口音,同时将流式识别模型的首字延迟降低至160毫秒。

正式开源

Fun-CosyVoice3(0.5B)开源:该模型提供零样本音色克隆能力,支持本地化部署与二次开发;

Fun-ASR-Nano(0.8B)开源:作为Fun-ASR的轻量化版本,推理成本更低,模型完全开源,支持本地部署与个性化微调。

根据最新了解,本次Fun-CosyVoice3大模型完成了多项关键升级:

首包延迟降低50%,支持双向流式合成,真正实现"输入即发声",适用于语音助手、直播配音、无障碍阅读等实时交互场景;

中英文混合词错误率相比前代大幅降低56.4%,无论是包含专业术语、大小写混排的文本,还是需要进行语码转换的句子,模型都能精准、自然地发音;

在零样本语音合成评测中,内容一致性与音色相似度全面提升,复杂场景下的字符错误率相对降低26%,效果已接近真人录音水平;

支持9种通用语言、18种中文方言、9种情感控制,并具备跨语种音色复制能力——仅需一段普通话录音样本,即可生成粤语、日语、英语等多种语言的语音,同时保持高度一致的音色特征。

而此次开源的Fun-CosyVoice3-0.5B模型提供了零样本音色克隆功能,用户只需提供一段3秒以上的参考音频,即可复制其音色并合成新的语音内容,并且支持本地部署和二次开发。

Fun-ASR则致力于让AI"听得懂"。其基于数千上万小时真实语音数据训练,已在钉钉"AI听记"、视频会议等场景中大规模落地。最新版本重点优化了嘈杂环境鲁棒性、多语言自由混合输入、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字延迟降低到160毫秒。

阿里通义百聆推出语音模型新版本:3秒录音即可“复制”9种语言、18种方言

Fun-CosyVoice3-0.5B 开源地址:

https://github.com/FunAudioLLM/CosyVoice(GitHub)

https://funaudiollm.github.io/cosyvoice3/(GitHub.io)

https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验demo)

https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)

https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)

Fun-ASR-Nano-0.8B 开源地址:

https://github.com/FunAudioLLM/Fun-ASR(GitHub)

https://funaudiollm.github.io/funasr/(GitHub.io)

https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验demo)

https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验demo)

https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)

https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)

来源:https://www.ithome.com/0/905/119.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

武汉光谷AI人才新政:最高支持1350万元
科技数码
武汉光谷AI人才新政:最高支持1350万元

不看学历看代码,不看资历看作品,不唯学历、论文和职称……3月31日,武汉东湖高新区启动人工智能重大创新创业团队引进专项行动,推出人工智能领域专属引才政策,新政以GitHub星标数、API调用量、用户

热心网友
03.31
百度入局AI赛道:2024年11家领军企业最新盘点
AI
百度入局AI赛道:2024年11家领军企业最新盘点

智东西作者 程茜编辑 心缘智东西3月31日消息,昨日,中国联通发布2026年中国联通山东济南市行业客户智算一体机服务项目中标候选人公示,百度以2 9亿元中标。该项目于3月9日发布招标文件,采购内容包

热心网友
03.31
工信部等九部门部署人工智能在物联网的应用与创新
科技数码
工信部等九部门部署人工智能在物联网的应用与创新

人民财讯3月31日电,工信部等九部门印发《推动物联网产业创新发展行动方案(2026—2028年)》。方案提出,提升网络智联水平。探索人工智能等新技术在物联网网络中的应用,提升网络连接、资源管理、运行

热心网友
03.31
人工智能副作用的真实体验:避免“脑雾”与“工作溺水”
科技数码
人工智能副作用的真实体验:避免“脑雾”与“工作溺水”

  《新华每日电讯》3月31日刊发文章《“脑炸”“工作泔水”——人工智能副作用体验过了吗?》。  让人工智能处理机械重复的任务,把时间和精力投入创造性工作,或者早点下班回家陪伴家人?上述美好愿景尚未

热心网友
03.31
民生银行张斌:2025年计划新增261个细分AI应用场景
科技数码
民生银行张斌:2025年计划新增261个细分AI应用场景

北京商报讯(记者 孟凡霞 周义力)3月31日,民生银行召开2025年度业绩交流会,该行首席信息官张斌就人工智能领域的相关布局和实践作出详细解读。他表示,自2024年底生成式人工智能取得突破性进展后,

热心网友
03.31

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜
网络安全
OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜

3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro

热心网友
03.31
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连
电脑教程
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连

Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界

热心网友
03.31
日元3月大跌13.23%,创2020年3月以来最大单月跌幅
科技数码
日元3月大跌13.23%,创2020年3月以来最大单月跌幅

格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。

热心网友
03.31
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元
科技数码
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元

顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,

热心网友
03.31
小吉空调双十服务:提升家居空间美学的专业方案
科技数码
小吉空调双十服务:提升家居空间美学的专业方案

小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”

热心网友
03.31