小米最强开源模型罗福莉发布适配五款国产芯片性能超越DeepSeek_AI热点日报

小米最强开源模型罗福莉发布适配五款国产芯片性能超越DeepSeek

类型：热点整理2026-05-18

今天，国内大模型开源领域迎来一个重磅消息。小米正式开源了由罗福莉团队研发的MiMo-V2 5系列模型，采用宽松的MIT协议。这意味着无论是商业推理部署还是二次训练，都无需额外授权，为开发者提供了极大的便利。 ▲MiMo-V2 5-Pro在Hugging Face的开源页面截图实际上，该系列模型已于

今天，国内大模型开源领域迎来一个重磅消息。小米正式开源了由罗福莉团队研发的MiMo-V2.5系列模型，采用宽松的MIT协议。这意味着无论是商业推理部署还是二次训练，都无需额外授权，为开发者提供了极大的便利。

▲MiMo-V2.5-Pro在Hugging Face的开源页面截图

实际上，该系列模型已于4月23日开启公测，包含MiMo-V2.5-Pro和MiMo-V2.5两款。它们不仅具备更强的智能体（Agent）能力，支持高达100万Token的上下文长度，而且在Token处理效率上也有显著提升，性能表现优异。

随着MiMo-V2.5-Pro完整基准测试结果的公布，小米方面宣称，其在GDPVal-AA（Elo）、Claw-Eval（pass^3）等多个关键测评中，表现超越了最新开源的DeepSeek-V4-Pro模型，也优于近期发布的Kimi K2.6等主流闭源模型，实现了综合性能的最佳表现。

▲MiMo-V2.5-Pro的最新测评成绩

更值得关注的是其生态布局的速度。开源首日，MiMo-V2.5-Pro便宣布已完成与阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯等多家主流芯片厂商的接入适配。同时，该系列模型也同步完成了对SGLang和vLLM这两大主流推理框架的“Day 0”适配，确保了开箱即用的部署体验。

此外，小米还配套推出了两项生态计划：一是“百万亿Token创造者激励计划”，计划在30天内免费发放总计100万亿Token的权益；二是“Agent生态共建计划”，目前已与OpenCode、Hermes Agent、KiloCode等智能体框架厂商展开合作，共同构建繁荣的开发者生态。

一、模型技术细节公布，测评超越DeepSeek-V4

根据小米最新公开的模型卡信息，其迄今为止最强的模型MiMo-V2.5-Pro，是一款参数规模达到1.02万亿的混合专家模型，其中激活参数为420亿。它基于混合注意力架构，相比前代模型，在通用智能、复杂软件工程以及长序列任务处理方面，都有明显进步。

该模型继承了MiMo-V2-Flash的混合注意力机制和多标记预测设计。具体来说，局部滑动窗口注意力与全局注意力以6:1的比例交错使用，窗口大小为128个Token。在处理长上下文时，通过可学习的注意力池偏置技术，将键值缓存的存储需求降低了近7倍，同时保持了性能。其集成的轻量级多标记预测模块，采用密集前馈神经网络，不仅将输出吞吐量提升了约三倍，也加速了强化学习的部署流程。

▲MiMo-V2.5-Pro的模型架构及训练过程

在训练方面，模型使用了27万亿Token进行预训练，采用FP8混合精度，原生序列长度为32K，并可扩展至100万Token。后训练则遵循三阶段范式：首先是监督式微调，在精选数据对上建立基础的指令跟随能力；其次是领域专精训练，针对数学、安全、工具使用等不同领域，分别用强化学习优化特定的教师模型；最后是多教师策略蒸馏，让单个学生模型在各位专精教师的Token级指导下进行学习，最终将所有能力融合到一个统一的模型中。

再来看看MiMo-V2.5。这是一个3100亿参数的稀疏混合专家模型，拥有150亿激活参数，在48万亿Token上进行了训练。它的语言主干框架同样继承了混合滑动窗口注意力机制，并搭载了自研的预训练视觉与音频编码器，这两类编码器通过轻量化的投影模块实现跨模态融合。

▲MiMo-V2.5架构

它的训练过程更为细致，分为五个阶段：从多样化的文本预训练构建语言模型主干；进行投影层预热以实现多模态对齐；开展大规模多模态预训练；执行监督微调与智能体训练，并将上下文窗口从32K逐步扩展至100万Token；最后通过强化学习与多目标偏好蒸馏，进一步强化模型的综合能力。

从公布的测评结果看，MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多个基准测试中，成绩大幅超越了DeepSeek最新发布的DeepSeek-V4-Flash模型，展现出强大的竞争力。

▲MiMo-V2.5最新测评情况

二、开源首日，完成阿里平头哥沐曦等7家芯片厂商适配

模型性能是一方面，落地应用的便捷性同样关键。小米在开源首日便公布了广泛的芯片生态与推理框架适配情况，MiMo-V2.5-Pro已与多家主流厂商完成深度对接：阿里平头哥基于自研的真武810E芯片及全栈AI软件栈实现了适配；亚马逊云科技则利用其Trainium2芯片与Neuron SDK+vLLM框架，做到了“开源即全球可用”；AMD通过其ROCm开源软件栈提供了“Day-0”级别的全面优化支持。此外，百度昆仑芯通过底层算子优化与软硬件协同来保障运行效率；燧原科技基于自研的驭算TopsRider软件栈，在其L600产品上完成了全量适配；沐曦实现了从Triton语法到自家GPU指令集的端到端原生支持；天数智芯也达成了“Day 0”级深度适配。除了芯片，MiMo-V2.5系列模型也同步完成了对SGLang和vLLM这两大主流推理框架的即时适配，为开发者提供了多样化的部署选择。

三、免费发放100万亿Token，已与Hermes Agent等合作

为了加速开发者生态的构建，小米同步推出了名为“MiMo Orbit”的计划，主要包括两部分。其一是“百万亿Token创造者激励计划”。该计划面向全球AI开发者与用户，在30天内免费发放总计100万亿Token的权益。采取申请制，通过审核的申请者最高可获得包含16亿Credits的Max档位套餐。活动期限为北京时间2026年4月28日至5月28日。其二是“Agent生态共建计划”。该计划旨在为全球智能体框架团队提供专项支持，包括提供限免的MiMo Token，并参与或赞助各框架平台的AI黑客松等共创活动。目前，小米已与OpenCode、Hermes Agent、KiloCode等多家智能体框架厂商展开了深度合作，共同推动AI应用生态的发展。

结语：多款国产开源模型“亮见”交锋

近期，大模型行业的开源竞赛日趋激烈。模型与国产及国际芯片的“Day 0”适配，已从一个宣传亮点转变为基本要求，推理效率和部署成本正成为下一阶段竞争的核心战场。同时，动辄百亿、万亿Token的免费激励，以及与Agent框架的生态共建，都清晰地表明，行业的竞争焦点正在从单纯的“拼参数规模”转向更实际的“拼应用生态与用户体验”。

值得注意的是，小米MiMo-V2.5-Pro在多项基准测试中直接对标并超越了DeepSeek最新开源的顶级模型，这无疑是在开源赛道上的一次正面“亮见”。这种高强度的竞争，有望倒逼整个行业更快地降低推理成本，并切实提升智能体在真实场景中的任务完成能力，最终受益的将是整个开发者生态和终端用户。

来源：https://www.163.com/dy/article/KRJCQA0A051180F7.html

DeepSeek

延伸阅读

补充最近整理过的热点入口。