通义百炼开源Fun-CosyVoice,支持极速克隆高品质语音
智通财经APP获悉,12月15日,通义大模型官方微信公众号发布消息,宣布通义百炼语音模型迎来新一轮升级。本次升级主要涵盖以下方面:Fun-CosyVoice3模型性能提升,首次响应延迟降低50%,中英文混合识别准确率翻倍,并支持9种语言及18种方言口音、跨语种声音克隆与情感控制能力。同时,Fun-CosyVoice3(0.5B)模型正式开源,此版本提供零样本声音克隆功能,用户仅需提供一段3秒以上的参考音频,即可复刻其音色并合成新语音,且支持本地部署与二次开发。
此外,通义还推出了轻量化版本Fun-ASR-Nano模型,总参数量压缩至0.8B,推理成本进一步降低,目前已开源,支持本地部署与定制化微调。
通义团队表示,本次Fun-CosyVoice3大模型实现了多项关键性能提升:
首包延迟降低50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时交互场景;
中英文混合词错误率相较于之前大幅下降56.4%,无论是包含专业术语、大小写混排,还是需要进行语码转换的句子,模型均能精准、自然地发音;
在零样本文本到语音评测中,内容一致性与音色相似度均获全面提升,复杂场景下的字符错误率相对降低26%,已接近真人录音水平;
模型支持9种通用语言、18种中文方言、9种情感控制,并具备跨语种音色复刻能力——仅需一段普通话录音,即可生成粤语、日语、英语等不同语言的语音,且音色保持高度一致。
Fun-ASR模型能力也同步获得增强。作为通义百炼推出的端到端语音识别大模型,Fun-ASR基于数千小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地应用。本次,通义对Fun-ASR的核心能力进行了全面升级,重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字延迟降低至160毫秒。
相关攻略
我国首批克隆高产奶山羊在陕西降生,实现该领域批量克隆技术突破。科研团队采用先进技术,以高产母羊为供体精准复制其优良性状,展现了我国在奶山羊育种领域的前沿实力。
AIX上克隆rootvg的操作方法 AIX Rootvg的镜像备份 如何克隆rootvg? 系统升级时,谁都头疼漫长的停机时间。好在AIX提供了一个聪明的思路:把当前的rootvg完整克隆到一块新硬盘上,用这块“替换硬盘”来提前进行升级安装。这样一来,原系统上的应用服务照常运行,丝毫不受影响。等到新
新华社东京3月26日电(记者钱铮)日本一项新近发表的研究显示,哺乳动物的克隆不能无限进行,一代代克隆过程中有害突变会在克隆动物体内积蓄,最终达到克隆极限。 日本放射线影响研究所和山梨大学研究人
3月14日,千问AI眼镜在2026年中国家电及消费电子博览会(简称“AWE”)现场举办国内首场产品发布会。据悉,在展区现场,千问AI眼镜吸引大量观众排队体验。展台上多台设备被轮流试戴,许多观众从语音
近期,短视频平台上“假周星驰”刷屏,AI生成的内容与星爷长得一模一样,语气、笑声乃至小动作都惟妙惟肖,还复刻了多个经典片段,不仔细看真能以假乱真。这些视频打着“致敬经典”的旗号,本质是赤裸裸的侵权
热门专题
热门推荐
灵兽品阶决定成长上限,需按职业选择走兽、飞禽或鳞甲类。养成应与角色境界同步,集中资源优先培养主力至高星。技能分先天与后天,后天技能可动态调整应对战局。属性差异有限,后期培养深度更为关键。新手建议从中品起步,非重氪玩家以上品灵兽作为中期主力性价比更高。长期养成需分。
马斯克起诉OpenAI违背非营利使命一案因超过诉讼时效被法院驳回。马斯克原承诺出资10亿美元实际仅投入3800万美元,后因控制权之争离开。此后OpenAI转型营利并估值飙升,本案虽凸显非营利初心与资本扩张的冲突,但法庭未就实质问题作出裁决。
《天下归心》新版本“风起官渡”开启预约。鲁肃、孟获两位新名将登场,其技能将改变阵容搭配逻辑。跨服官渡之战复刻历史多阶段阵营对抗,重现史诗战场。新增藏品阁系统,陈列藏品可提升全队战力。士兵系统革新,装配军旗与令箭可释放觉醒技能,深化战术策略。预约即可领取专属礼包。
长城汽车创始人魏建军以“怕”为引,强调敬畏造车规律、珍视用户信任。面对行业内卷与营销泡沫,长城坚持长期主义,投入巨资研发并延长验证周期,以归元平台及魏牌V9X展现技术实力与品质承诺。通过将个人声誉与品牌绑定,长城构建以信任为核心的持久竞争力,其探索对行业良性发展具有重。
深蓝S05轴距达2880毫米,搭载AI大模型与L2+级智驾,注重科技体验与纯电性能。皓瀚DH-i轴距2775毫米,配备L2级辅助驾驶与实用智能座舱,强调经济可靠与混动平衡。两者分别吸引追求前沿科技的年轻群体和重视实用性的家庭用户,体现了新能源市场技术路线多元化并存的趋势。





