当前位置: 首页 > AI > 文章内容页

小米发布Xiaomi-MiMo-Audio语音大模型,实现拟人化对话交互

时间:2025-09-20    作者:游乐小编    

9月19日,小米科技正式对外发布业内首个开源的原生端到端语音大模型Xiaomi-MiMo-Audio,该模型首创性地在语音技术领域实现了基于上下文学习(ICL)的少量样本泛化能力。

小米研发团队表示,GPT-3在五年前就通过自回归语言模型配合海量无监督数据训练,率先展现了令人惊艳的上下文学习能力。然而在语音识别领域,现有模型仍然过度依赖标注数据,难以像人类一样快速适应新任务。

Xiaomi-MiMo-Audio的诞生打破了这一技术壁垒。该模型采用独创的预训练架构,依托上亿小时的语音数据进行训练,在多个维度上实现突破:

  • 智商维度:提升语义理解与逻辑推理能力
  • 情商维度:增强情感识别与表达水平
  • 表现力:优化语音自然度与感染力
  • 安全性:强化内容适配合规性

此项创新技术的主要突破点在于:

小米语音大模型架构图

  • 全球首次实证:当语音无损压缩预训练规模扩展至1亿小时时,模型会自发涌现出跨任务泛化能力,展现出惊人的Few-Shot Learning特性
  • 首次系统定义语音生成式预训练的技术规范,并开放全套解决方案,涵盖无损压缩Tokenizer、创新模型架构、训练方法论及评估体系

小米语音模型工作流程

目前,小米已通过Huggingface平台开源了模型的预训练和指令微调版本,同时在Github开放了Tokenizer模型代码。这款基于Transformer架构的1.2B参数量模型,支持音频重建和语音转文本双重任务。

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com