时间:2025-09-20 作者:游乐小编
9月19日,小米科技正式对外发布业内首个开源的原生端到端语音大模型Xiaomi-MiMo-Audio,该模型首创性地在语音技术领域实现了基于上下文学习(ICL)的少量样本泛化能力。
小米研发团队表示,GPT-3在五年前就通过自回归语言模型配合海量无监督数据训练,率先展现了令人惊艳的上下文学习能力。然而在语音识别领域,现有模型仍然过度依赖标注数据,难以像人类一样快速适应新任务。
Xiaomi-MiMo-Audio的诞生打破了这一技术壁垒。该模型采用独创的预训练架构,依托上亿小时的语音数据进行训练,在多个维度上实现突破:
此项创新技术的主要突破点在于:
目前,小米已通过Huggingface平台开源了模型的预训练和指令微调版本,同时在Github开放了Tokenizer模型代码。这款基于Transformer架构的1.2B参数量模型,支持音频重建和语音转文本双重任务。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略