小米开源1T参数大模型并赠送100T Token使用详解

时间：2026-05-28 06:59

小米开源了1 02万亿参数的MiMo-V2 5-Pro大模型，采用最宽松的MIT协议，并赠送100TToken。该模型在多项基准测试中表现优异，尤其在数学和长上下文任务上，且具备较高的Token效率。此举旨在降低开发者使用门槛，吸引生态建设，而非直接通过模型盈利。其开源策略和成本优势对行业构成竞争压力。

小米这次放了个大招。一个1.02万亿参数的MoE模型，直接以最宽松的MIT协议开源，开放平台还豪气地送出100T Token。这消息一出，估计不少人的第一反应是：小米？是那个做手机的小米吗？

在AI大模型的竞技场上，小米的存在感一直不算强。当DeepSeek、Kimi、通义千问轮番占据热搜时，小米的MiMo系列更像是个埋头钻研的“学霸”，成绩不差，却鲜少成为话题中心。但这次的V2.5版本，情况确实有些不同了。

图片来源：mimo.xiaomi.com/mimo-v2-5/a…

真正的“王炸”：MIT协议下的完全开源

而且，小米并非只开源一个“旗舰版”做做样子。而是将整个模型家族全盘托出：310B参数的多模态版、1T参数的Pro版、8B的语音识别版、语音合成版，乃至基础模型（Base版），全部采用MIT协议。回顾过去，市场上不乏“开源小模型，闭源大模型”或“开源权重，限制商用”的策略。像小米这样，将顶级规模的Pro版和多模态版一并开源，且采用最宽松的协议，其决心和诚意可见一斑。

当然，开源慷慨是一回事，模型本身的实力才是硬道理。

性能实测：数据说话

先看MiMo-V2.5-Pro在基础能力上的表现。在MMLU、GSM8K、MATH等核心基准测试中，其Base模型分别取得了89.4、99.6和86.2的成绩。尤其是MATH 86.2分，对比DeepSeek-V4-Pro Base的64.5分和Kimi-K2 Base的70.2分，优势相当明显。在GPQA-Diamond测试中达到66.7，也显著高于Kimi-K2 Base的48.1。需要指出的是，不同Base模型的训练数据量和策略存在差异，直接对比需谨慎，但这至少表明小米在预训练阶段投入了扎实的工作。

MiMo-V2.5-Pro Base vs DeepSeek-V4-Pro Base vs Kimi-K2 Base

此次升级，Agent（智能体）能力是重点方向。在SWE-Bench Pro上取得57.2分，与Claude Opus 4.6的57.3分几乎持平；Terminal-Bench 2.0得分68.4，超过了Opus 4.6的65.4。在综合评测Claw-Eval上，其63.8分的成绩虽未追上Opus 4.6的70.4分，但已高于GPT-5.4的60.3分和DeepSeek V4 Pro的59.8分。

然而，真正值得开发者关注的亮点，或许是其Token效率。在Claw-Eval评测中，MiMo-V2.5-Pro平均每个任务轨迹消耗约70K Token，实现了64%的通过率。对比来看，Claude Opus 4.6消耗114K Token达到70.8%的通过率，GPT-5.4消耗183K Token达到60.3%，而Gemini 3.1 Pro更是消耗了227K Token仅获得55.9%的通过率。简而言之，MiMo-V2.5-Pro用不到GPT-5.4四成的Token消耗量，取得了更好的成绩。对于需要频繁调用API的实际业务场景，这种效率差异直接转化为可观的成本节约。

ClawEval评测，MiMo-V2.5-Pro用最少Token跑出最好成绩

多模态方面，MiMo-V2.5（310B/15B激活）采用原生全模态统一架构，而非模块拼接。其在Video-MME、CharXiv RQ、HR-Bench 4k等评测中，与Gemini 3 Pro、Kimi K2.6处于同一水平线。从基准测试看，没有明显短板。

架构设计的巧思

除了亮眼的数据，MiMo-V2.5在架构设计上也颇有看点。

其采用了混合注意力机制，并非全程使用全局注意力，而是以5:1的比例交替使用滑动窗口注意力（窗口大小128）和全局注意力。这一设计将KV缓存存储需求降低了约7倍，同时通过可学习的注意力偏置，保证了长上下文性能没有显著损失。在GraphWalks长上下文评测中，MiMo-V2.5-Pro在1M上下文长度下，BFS任务保持率仍有37%，Parents任务保持率达62%，相比上一代模型在长上下文上的表现有显著提升。

模型还引入了多Token预测（MTP）技术，通过3个轻量级MTP模块，在推理时利用推测解码将输出速度提升了3倍。MoE路由方面，Pro版拥有384个路由专家，每次激活8个，实现了极高的稀疏性（1.02T总参仅激活42B），有助于控制推理成本。训练数据方面，V2.5预训练使用了约48T Token，Pro版使用了27T Token，结合多教师策略蒸馏的后训练方法，最终达到了不错的性能效果。

两个版本的关键架构参数对比

商业逻辑：生态优先，而非模型变&现

此次发布，另一个意外之举是MiMo开放平台为新用户赠送100T Token，甚至重置了老用户的Credit余额。这种手笔，比许多一线云厂商更为大方。

图片来源：mimo.xiaomi.com/mimo-v2-5-p…

那么，小米图什么呢？其背后的商业逻辑其实相当清晰。与OpenAI、Anthropic等公司不同，小米的核心盈利模式并非直接售卖API。它的根本目的，是降低开发者使用先进AI能力的门槛，从而将MiMo深度融入小米的整个生态体系——手机、汽车、智能家居。模型开源、API成本低廉，都是为了吸引更多开发者和企业进入小米的生态圈。将1T参数的顶级模型以MIT协议开源，本身就能在技术社区引发巨大声浪，其营销效果远胜于单纯的广告投放。而100T Token的赠送，看似是巨大的算力成本，实则是一笔高效的获客投资，用以换取开发者的入驻和生态的活跃。

这让人联想到小米早期做手机的策略：高配低价，用极致的性价比打开市场，硬件利润微薄，转而通过MIUI生态和互联网服务盈利。如今在AI领域，似乎是同样的配方：模型开源免费，核心目标是通过赋能生态硬件和服务来创造价值。当其他厂商还在依靠限制性许可证和API收费时，小米这种“开源即王道”的模式，无疑构成了一种商业策略上的“降维打击”。

行业影响与开发者选择

综合来看，MiMo-V2.5-Pro的整体能力大致介于DeepSeek V4 Pro和Claude Opus 4.6之间，在数学、长上下文等特定场景表现突出，但在复杂推理和多步骤规划等Agent综合能力上，与顶尖模型尚有差距。其最大的竞争优势在于极高的Token效率和极度友好的开源策略。

对于行业而言，小米的这一波操作，无疑给DeepSeek、Kimi等同样发力国产MoE模型的厂商带来了压力。参数更大、协议更宽松、使用成本更低，这些因素会吸引开源社区和开发者的注意力。毕竟，社区的关注度是有限的。

对于开发者而言，如果你的业务涉及Agent开发，尤其对Token成本敏感，那么MiMo-V2.5-Pro值得一试。100T的免费Token额度足以支撑大量的实验和原型开发。若考虑本地部署，1T参数的Pro版对算力要求极高，但310B/15B激活的V2.5版本则相对可行，且已有SGLang、vLLM等推理框架支持，部署难度可控。当然，任何模型的基准测试成绩与实际应用体验之间都可能存在差距，最终的选择还需结合具体业务场景进行验证。

总而言之，1T参数完全开源，100T Token免费赠送，MIT协议任君使用——这套组合拳，确实很“小米”。

信息来源

MiMo-V2.5 官方博客
MiMo-V2.5-Pro 官方博客
HuggingFace MiMo-V2.5 模型卡
HuggingFace MiMo-V2.5-Pro 模型卡
MiMo 开放平台
VentureBeat: Xiaomi stuns with new MiMo V2 Pro LLM

来源：https://juejin.cn/post/7633725015481647110

大模型

上一篇Clawdbot爆火背后是生产力革命还是套壳炒作 下一篇免费在线视频编辑工具Video Candy轻松处理各类视频

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网