小米发布Xiaomi-MiMo-Audio语音大模型，实现拟人化对话交互

首页

热心网友

转载

2025-09-20

9月19日，小米科技正式对外发布业内首个开源的原生端到端语音大模型Xiaomi-MiMo-Audio，该模型首创性地在语音技术领域实现了基于上下文学习（ICL）的少量样本泛化能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

小米研发团队表示，GPT-3在五年前就通过自回归语言模型配合海量无监督数据训练，率先展现了令人惊艳的上下文学习能力。然而在语音识别领域，现有模型仍然过度依赖标注数据，难以像人类一样快速适应新任务。

Xiaomi-MiMo-Audio的诞生打破了这一技术壁垒。该模型采用独创的预训练架构，依托上亿小时的语音数据进行训练，在多个维度上实现突破：

智商维度：提升语义理解与逻辑推理能力
情商维度：增强情感识别与表达水平
表现力：优化语音自然度与感染力
安全性：强化内容适配合规性

此项创新技术的主要突破点在于：

小米语音大模型架构图

全球首次实证：当语音无损压缩预训练规模扩展至1亿小时时，模型会自发涌现出跨任务泛化能力，展现出惊人的Few-Shot Learning特性
首次系统定义语音生成式预训练的技术规范，并开放全套解决方案，涵盖无损压缩Tokenizer、创新模型架构、训练方法论及评估体系

小米语音模型工作流程

目前，小米已通过Huggingface平台开源了模型的预训练和指令微调版本，同时在Github开放了Tokenizer模型代码。这款基于Transformer架构的1.2B参数量模型，支持音频重建和语音转文本双重任务。

来源:https://www.ithome.com/0/884/126.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：OpenAI联手立讯精密研发AI硬件，或挑战苹果市场地位下一篇：高德升级TrafficVLM模型，AI预知超视距路况如"天眼"

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08

小米发布Xiaomi-MiMo-Audio语音大模型，实现拟人化对话交互

相关攻略

热门专题

最新APP

热门推荐