通义千问开源语音模型:省下近50%的GPU算力
12月24日消息,通义百聆家族近日开源新一代语音交互模型Fun-Audio-Chat-8B。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新模型融合高智商与高情商,具备出色的共情能力,对话如同与懂你的人聊天般自然。
在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等权威基准评测中,Fun-Audio-Chat-8B斩获SOTA成绩,超越同量级开源模型。

目前,百聆家族成员已覆盖“会说话”的语音转文字模型Fun-ASR和“听得懂”的文字转语音模型Fun-CosyVoice3。
最新开源的模型Fun-Audio-Chat-8B主打语音对语种功能,实现了“能听会说”。
用户可与模型直接进行音频对话,适用于语音聊天、情感陪伴、智能设备和语音客服等多种场景。
即使没有任何情绪标签或提示词,它也能通过语义、语气、语速、停顿、重音等细微信号,感知对方的情绪状态,并给出恰到好处的关切、安慰或鼓励式回应。
此外,用户还能尝试角色扮演,量身定制语音的情绪、说话风格、语速、高低音和音量等。

而模型之所以能保持“原有智商”,主要得益于两项创新的音频模型训练模式。
一是采用Core-Cocktail两阶段训练策略。先快速学习新本事,再将“新本事”和“老底子”融合起来。为了避免在掌握新技能时遗忘原有能力(灾难性遗忘),第一阶段训练得到的模型会与原始纯文本大模型的参数先行合并,再进行微调。
二是与人类偏好对齐。通过多阶段、多任务的后训练设计,模型能更好地理解真实对话场景中用户的语音内容与情绪线索,从而做出更自然、更符合人类期待的回应。
值得注意的是,新模型通过压缩→自回归→解压缩的双分辨率的端到端设计,将音频帧率降到业界最低的5Hz,在保证语音质量的同时节省近50% GPU计算资源。

目前,用户可在魔搭社区、Hugging Face和GitHub下载模型自行体验。
相关攻略
文 | 深流研究所,作者 | 绛枫2025年12月,黄仁勋做客Joe Rogan播客,承认自己一直处于焦虑状态。他说了一句用了三十多年的老话—— "英伟达离倒闭永远只有30天 ",然后补了一句很少有人注
“500人的技术团队投入,换不来与谷歌、英伟达同台竞技的话语权。” 作者丨刘伊伦 编辑丨包永刚 “超节点互联协议生态的碎片化,正成为制约其规模化部署的核心瓶颈。”奇异摩尔CEO田陌晨说
新智元报道编辑:桃子【新智元导读】在万亿级大模型横行的时代,单纯靠「堆芯片」已经玩不动了。中兴交出了一份不一样的答卷:跳出单一芯片的性能内卷,靠「系统级协同」重构智算底座。当前AI大模型参数规模已突
芯东西(公众号:aichip001)编译 刘煜编辑 陈骏达芯东西3月27日消息,3月25日,《连线(Wired)》杂志发布了对Arm CEO Rene Haas的46分钟的采访报道。在本次采访中,H
文 | 硅谷1011万亿美元,这是接下来21个月,英伟达GPU订单的收入预期。刚过去的GTC大会,黄仁勋开始停止了讲芯片的故事。他开始瞄准更大的叙事:token经济,而这将是更有野心且更持久的市场蛋
热门专题
热门推荐
3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城
163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163
在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一
一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星
2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全





