小米发布Xiaomi-MiMo-Audio：全球首个开源端到端语音大模型

时间：2025-09-20 16:01

感谢热心网友飞天面条神提供的线索9月19日，小米正式对外开源其首个原生端到端语音大模型Xiaomi-MiMo-Audio，标志着在语音领域首次实现了基于上下文学习的少样本泛化能力。该模型突破了当前语

据热心网友"飞天面条神"提供的信息显示近日，小米宣布开源旗下首个端到端语音大模型Xiaomi-MiMo-Audio，在语音技术领域实现了基于上下文学习的少样本泛化能力突破。这一创新解决了当前语音模型对大量标注数据的依赖问题，为构建更智能的语音交互系统开辟了新方向。

据了解，GPT-3五年前通过自回归模型大规模预训练展现了出色的上下文学习能力，带动了自然语言处理的革命。但语音识别领域长期受限于人工标注数据的需求，模型泛化能力较弱，难以适应新场景。

Xiaomi-MiMo-Audio采用创新的预训练框架，经过累计亿万小时的训练，在智商、情商、表达能力和安全合规等多个维度实现了突破性进展。其语音自然度、情感表达及交互适应性已接近真人水平。该模型在技术上取得两大突破：首先证实了基于语音无损压缩的亿级预训练可以产生跨任务泛化能力，使模型具备出色的少样本学习性能；其次完整提出了语音生成式预训练的目标框架，并开源了包含Tokenizer、模型结构、训练方法和评价标准在内的完整技术方案。

目前，该模型的预训练版本和指令调优模型已在Huggingface平台发布，Tokenizer模型也同步在Github开放。这个基于Transformer架构的1.2B参数大模型支持音频重建、语音转文本等多种任务应用，为科研和产业发展提供了有力支撑。

来源：https://ai.zol.com.cn/1049/10497726.html

上一篇吉利银河星舰7 EM-i进军澳洲，新能源双子星加速全球布局 下一篇小米17系列首配高通旗舰处理器，卢伟冰详解自研+外采双轨策略

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-09

小米SU7六月销量揭晓零售34738辆批发超2万辆

7月1日，小米汽车官方微博发布消息称：2026年6月，月交付量稳定突破30000台。信息虽简短，但详细数据仍需参考乘联会的统计报告。小米官方未单独公布具体数字，不过乘联会在6月全国乘用车市场分析中清晰列明：小米汽车新能源乘用车零售销量达34738辆，其中主力车型SU7批发销量突破2万辆，具体为20

科技数码 · 2026-07-09

Meta投资百亿美元建设加拿大首个数据中心

Meta在加拿大阿尔伯塔省投资约100亿美元建设首个海外数据中心，装机容量1吉瓦，预计两三年内建成。同时探索云计算业务，向第三方出售算力。市场对其资本支出逻辑和回报存在质疑。

科技数码 · 2026-07-09

iPhone 18 Pro A20 Pro芯片沿用LPDDR5X架构

苹果A20Pro芯片未用LPDDR6，沿用LPDDR5X，通道从4条增至6条，位宽达96-bit，优化AI推理、多任务及影像性能，成本与体验间优先释放当下性能。

科技数码 · 2026-07-09

三星全业务启动AI转型全面引入生成式AI工具

三星宣布全面启动人工智能转型，将在所有关联公司部署双子星、ChatGPT等生成式人工智能工具，覆盖设计、研发、生产、营销、服务等八大核心业务环节，同时设立专职人工智能组织，对高管和员工开展系统培训，并发布人工智能转型共同愿景宣言。

科技数码 · 2026-07-09

太平洋证券：硅烷材料从光伏辅料拓展至硅碳负极与光纤核心

电子特气是半导体制造第二大耗材，市场规模预计从2024年195亿元增至2030年708亿元。硅烷材料凭借“气体+含硅”双重特性，从光伏辅料向硅碳负极、光纤核心原料跃迁，成为重要增长极。