小米这次放了个大招。一个1.02万亿参数的MoE模型,直接以最宽松的MIT协议开源,开放平台还豪气地送出100T Token。这消息一出,估计不少人的第一反应是:小米?是那个做手机的小米吗?
在AI大模型的竞技场上,小米的存在感一直不算强。当DeepSeek、Kimi、通义千问轮番占据热搜时,小米的MiMo系列更像是个埋头钻研的“学霸”,成绩不差,却鲜少成为话题中心。但这次的V2.5版本,情况确实有些不同了。
图片来源:mimo.xiaomi.com/mimo-v2-5/a…
真正的“王炸”:MIT协议下的完全开源
最令人震撼的,无疑是MiMo-V2.5-Pro的发布策略。1.02万亿总参数,420亿激活参数,这本身已是顶级规模。但更关键的是其开源协议——MIT。这不是那种附加了诸多限制的“伪开源”,也不是仅限研究用途的“阉割版”。MIT协议意味着什么?商用、修改、二次训练,几乎没有任何限制,连版权声明都不是强制要求。这种开放程度,在动辄万亿参数的大模型领域,堪称罕见。
而且,小米并非只开源一个“旗舰版”做做样子。而是将整个模型家族全盘托出:310B参数的多模态版、1T参数的Pro版、8B的语音识别版、语音合成版,乃至基础模型(Base版),全部采用MIT协议。回顾过去,市场上不乏“开源小模型,闭源大模型”或“开源权重,限制商用”的策略。像小米这样,将顶级规模的Pro版和多模态版一并开源,且采用最宽松的协议,其决心和诚意可见一斑。
当然,开源慷慨是一回事,模型本身的实力才是硬道理。
性能实测:数据说话
先看MiMo-V2.5-Pro在基础能力上的表现。在MMLU、GSM8K、MATH等核心基准测试中,其Base模型分别取得了89.4、99.6和86.2的成绩。尤其是MATH 86.2分,对比DeepSeek-V4-Pro Base的64.5分和Kimi-K2 Base的70.2分,优势相当明显。在GPQA-Diamond测试中达到66.7,也显著高于Kimi-K2 Base的48.1。需要指出的是,不同Base模型的训练数据量和策略存在差异,直接对比需谨慎,但这至少表明小米在预训练阶段投入了扎实的工作。
MiMo-V2.5-Pro Base vs DeepSeek-V4-Pro Base vs Kimi-K2 Base
此次升级,Agent(智能体)能力是重点方向。在SWE-Bench Pro上取得57.2分,与Claude Opus 4.6的57.3分几乎持平;Terminal-Bench 2.0得分68.4,超过了Opus 4.6的65.4。在综合评测Claw-Eval上,其63.8分的成绩虽未追上Opus 4.6的70.4分,但已高于GPT-5.4的60.3分和DeepSeek V4 Pro的59.8分。
然而,真正值得开发者关注的亮点,或许是其Token效率。在Claw-Eval评测中,MiMo-V2.5-Pro平均每个任务轨迹消耗约70K Token,实现了64%的通过率。对比来看,Claude Opus 4.6消耗114K Token达到70.8%的通过率,GPT-5.4消耗183K Token达到60.3%,而Gemini 3.1 Pro更是消耗了227K Token仅获得55.9%的通过率。简而言之,MiMo-V2.5-Pro用不到GPT-5.4四成的Token消耗量,取得了更好的成绩。对于需要频繁调用API的实际业务场景,这种效率差异直接转化为可观的成本节约。
ClawEval评测,MiMo-V2.5-Pro用最少Token跑出最好成绩
多模态方面,MiMo-V2.5(310B/15B激活)采用原生全模态统一架构,而非模块拼接。其在Video-MME、CharXiv RQ、HR-Bench 4k等评测中,与Gemini 3 Pro、Kimi K2.6处于同一水平线。从基准测试看,没有明显短板。
架构设计的巧思
除了亮眼的数据,MiMo-V2.5在架构设计上也颇有看点。
其采用了混合注意力机制,并非全程使用全局注意力,而是以5:1的比例交替使用滑动窗口注意力(窗口大小128)和全局注意力。这一设计将KV缓存存储需求降低了约7倍,同时通过可学习的注意力偏置,保证了长上下文性能没有显著损失。在GraphWalks长上下文评测中,MiMo-V2.5-Pro在1M上下文长度下,BFS任务保持率仍有37%,Parents任务保持率达62%,相比上一代模型在长上下文上的表现有显著提升。
模型还引入了多Token预测(MTP)技术,通过3个轻量级MTP模块,在推理时利用推测解码将输出速度提升了3倍。MoE路由方面,Pro版拥有384个路由专家,每次激活8个,实现了极高的稀疏性(1.02T总参仅激活42B),有助于控制推理成本。训练数据方面,V2.5预训练使用了约48T Token,Pro版使用了27T Token,结合多教师策略蒸馏的后训练方法,最终达到了不错的性能效果。
两个版本的关键架构参数对比
商业逻辑:生态优先,而非模型变&现
此次发布,另一个意外之举是MiMo开放平台为新用户赠送100T Token,甚至重置了老用户的Credit余额。这种手笔,比许多一线云厂商更为大方。
图片来源:mimo.xiaomi.com/mimo-v2-5-p…
那么,小米图什么呢?其背后的商业逻辑其实相当清晰。与OpenAI、Anthropic等公司不同,小米的核心盈利模式并非直接售卖API。它的根本目的,是降低开发者使用先进AI能力的门槛,从而将MiMo深度融入小米的整个生态体系——手机、汽车、智能家居。模型开源、API成本低廉,都是为了吸引更多开发者和企业进入小米的生态圈。将1T参数的顶级模型以MIT协议开源,本身就能在技术社区引发巨大声浪,其营销效果远胜于单纯的广告投放。而100T Token的赠送,看似是巨大的算力成本,实则是一笔高效的获客投资,用以换取开发者的入驻和生态的活跃。
这让人联想到小米早期做手机的策略:高配低价,用极致的性价比打开市场,硬件利润微薄,转而通过MIUI生态和互联网服务盈利。如今在AI领域,似乎是同样的配方:模型开源免费,核心目标是通过赋能生态硬件和服务来创造价值。当其他厂商还在依靠限制性许可证和API收费时,小米这种“开源即王道”的模式,无疑构成了一种商业策略上的“降维打击”。
行业影响与开发者选择
综合来看,MiMo-V2.5-Pro的整体能力大致介于DeepSeek V4 Pro和Claude Opus 4.6之间,在数学、长上下文等特定场景表现突出,但在复杂推理和多步骤规划等Agent综合能力上,与顶尖模型尚有差距。其最大的竞争优势在于极高的Token效率和极度友好的开源策略。
对于行业而言,小米的这一波操作,无疑给DeepSeek、Kimi等同样发力国产MoE模型的厂商带来了压力。参数更大、协议更宽松、使用成本更低,这些因素会吸引开源社区和开发者的注意力。毕竟,社区的关注度是有限的。
对于开发者而言,如果你的业务涉及Agent开发,尤其对Token成本敏感,那么MiMo-V2.5-Pro值得一试。100T的免费Token额度足以支撑大量的实验和原型开发。若考虑本地部署,1T参数的Pro版对算力要求极高,但310B/15B激活的V2.5版本则相对可行,且已有SGLang、vLLM等推理框架支持,部署难度可控。当然,任何模型的基准测试成绩与实际应用体验之间都可能存在差距,最终的选择还需结合具体业务场景进行验证。
总而言之,1T参数完全开源,100T Token免费赠送,MIT协议任君使用——这套组合拳,确实很“小米”。
信息来源
- MiMo-V2.5 官方博客
- MiMo-V2.5-Pro 官方博客
- HuggingFace MiMo-V2.5 模型卡
- HuggingFace MiMo-V2.5-Pro 模型卡
- MiMo 开放平台
- VentureBeat: Xiaomi stuns with new MiMo V2 Pro LLM
