游乐游手机版
首页/AI教程/文章详情

小米开源1T参数大模型并赠送100T Token使用详解

时间:2026-05-28 06:59
小米开源了1 02万亿参数的MiMo-V2 5-Pro大模型,采用最宽松的MIT协议,并赠送100TToken。该模型在多项基准测试中表现优异,尤其在数学和长上下文任务上,且具备较高的Token效率。此举旨在降低开发者使用门槛,吸引生态建设,而非直接通过模型盈利。其开源策略和成本优势对行业构成竞争压力。

小米这次放了个大招。一个1.02万亿参数的MoE模型,直接以最宽松的MIT协议开源,开放平台还豪气地送出100T Token。这消息一出,估计不少人的第一反应是:小米?是那个做手机的小米吗?

在AI大模型的竞技场上,小米的存在感一直不算强。当DeepSeek、Kimi、通义千问轮番占据热搜时,小米的MiMo系列更像是个埋头钻研的“学霸”,成绩不差,却鲜少成为话题中心。但这次的V2.5版本,情况确实有些不同了。

图片来源:mimo.xiaomi.com/mimo-v2-5/a…

真正的“王炸”:MIT协议下的完全开源

最令人震撼的,无疑是MiMo-V2.5-Pro的发布策略。1.02万亿总参数,420亿激活参数,这本身已是顶级规模。但更关键的是其开源协议——MIT。这不是那种附加了诸多限制的“伪开源”,也不是仅限研究用途的“阉割版”。MIT协议意味着什么?商用、修改、二次训练,几乎没有任何限制,连版权声明都不是强制要求。这种开放程度,在动辄万亿参数的大模型领域,堪称罕见。

而且,小米并非只开源一个“旗舰版”做做样子。而是将整个模型家族全盘托出:310B参数的多模态版、1T参数的Pro版、8B的语音识别版、语音合成版,乃至基础模型(Base版),全部采用MIT协议。回顾过去,市场上不乏“开源小模型,闭源大模型”或“开源权重,限制商用”的策略。像小米这样,将顶级规模的Pro版和多模态版一并开源,且采用最宽松的协议,其决心和诚意可见一斑。

当然,开源慷慨是一回事,模型本身的实力才是硬道理。

性能实测:数据说话

先看MiMo-V2.5-Pro在基础能力上的表现。在MMLU、GSM8K、MATH等核心基准测试中,其Base模型分别取得了89.4、99.6和86.2的成绩。尤其是MATH 86.2分,对比DeepSeek-V4-Pro Base的64.5分和Kimi-K2 Base的70.2分,优势相当明显。在GPQA-Diamond测试中达到66.7,也显著高于Kimi-K2 Base的48.1。需要指出的是,不同Base模型的训练数据量和策略存在差异,直接对比需谨慎,但这至少表明小米在预训练阶段投入了扎实的工作。

MiMo-V2.5-Pro Base vs DeepSeek-V4-Pro Base vs Kimi-K2 Base

此次升级,Agent(智能体)能力是重点方向。在SWE-Bench Pro上取得57.2分,与Claude Opus 4.6的57.3分几乎持平;Terminal-Bench 2.0得分68.4,超过了Opus 4.6的65.4。在综合评测Claw-Eval上,其63.8分的成绩虽未追上Opus 4.6的70.4分,但已高于GPT-5.4的60.3分和DeepSeek V4 Pro的59.8分。

然而,真正值得开发者关注的亮点,或许是其Token效率。在Claw-Eval评测中,MiMo-V2.5-Pro平均每个任务轨迹消耗约70K Token,实现了64%的通过率。对比来看,Claude Opus 4.6消耗114K Token达到70.8%的通过率,GPT-5.4消耗183K Token达到60.3%,而Gemini 3.1 Pro更是消耗了227K Token仅获得55.9%的通过率。简而言之,MiMo-V2.5-Pro用不到GPT-5.4四成的Token消耗量,取得了更好的成绩。对于需要频繁调用API的实际业务场景,这种效率差异直接转化为可观的成本节约。

ClawEval评测,MiMo-V2.5-Pro用最少Token跑出最好成绩

多模态方面,MiMo-V2.5(310B/15B激活)采用原生全模态统一架构,而非模块拼接。其在Video-MME、CharXiv RQ、HR-Bench 4k等评测中,与Gemini 3 Pro、Kimi K2.6处于同一水平线。从基准测试看,没有明显短板。

架构设计的巧思

除了亮眼的数据,MiMo-V2.5在架构设计上也颇有看点。

其采用了混合注意力机制,并非全程使用全局注意力,而是以5:1的比例交替使用滑动窗口注意力(窗口大小128)和全局注意力。这一设计将KV缓存存储需求降低了约7倍,同时通过可学习的注意力偏置,保证了长上下文性能没有显著损失。在GraphWalks长上下文评测中,MiMo-V2.5-Pro在1M上下文长度下,BFS任务保持率仍有37%,Parents任务保持率达62%,相比上一代模型在长上下文上的表现有显著提升。

模型还引入了多Token预测(MTP)技术,通过3个轻量级MTP模块,在推理时利用推测解码将输出速度提升了3倍。MoE路由方面,Pro版拥有384个路由专家,每次激活8个,实现了极高的稀疏性(1.02T总参仅激活42B),有助于控制推理成本。训练数据方面,V2.5预训练使用了约48T Token,Pro版使用了27T Token,结合多教师策略蒸馏的后训练方法,最终达到了不错的性能效果。

两个版本的关键架构参数对比

商业逻辑:生态优先,而非模型变&现

此次发布,另一个意外之举是MiMo开放平台为新用户赠送100T Token,甚至重置了老用户的Credit余额。这种手笔,比许多一线云厂商更为大方。

图片来源:mimo.xiaomi.com/mimo-v2-5-p…

那么,小米图什么呢?其背后的商业逻辑其实相当清晰。与OpenAI、Anthropic等公司不同,小米的核心盈利模式并非直接售卖API。它的根本目的,是降低开发者使用先进AI能力的门槛,从而将MiMo深度融入小米的整个生态体系——手机、汽车、智能家居。模型开源、API成本低廉,都是为了吸引更多开发者和企业进入小米的生态圈。将1T参数的顶级模型以MIT协议开源,本身就能在技术社区引发巨大声浪,其营销效果远胜于单纯的广告投放。而100T Token的赠送,看似是巨大的算力成本,实则是一笔高效的获客投资,用以换取开发者的入驻和生态的活跃。

这让人联想到小米早期做手机的策略:高配低价,用极致的性价比打开市场,硬件利润微薄,转而通过MIUI生态和互联网服务盈利。如今在AI领域,似乎是同样的配方:模型开源免费,核心目标是通过赋能生态硬件和服务来创造价值。当其他厂商还在依靠限制性许可证和API收费时,小米这种“开源即王道”的模式,无疑构成了一种商业策略上的“降维打击”。

行业影响与开发者选择

综合来看,MiMo-V2.5-Pro的整体能力大致介于DeepSeek V4 Pro和Claude Opus 4.6之间,在数学、长上下文等特定场景表现突出,但在复杂推理和多步骤规划等Agent综合能力上,与顶尖模型尚有差距。其最大的竞争优势在于极高的Token效率和极度友好的开源策略。

对于行业而言,小米的这一波操作,无疑给DeepSeek、Kimi等同样发力国产MoE模型的厂商带来了压力。参数更大、协议更宽松、使用成本更低,这些因素会吸引开源社区和开发者的注意力。毕竟,社区的关注度是有限的。

对于开发者而言,如果你的业务涉及Agent开发,尤其对Token成本敏感,那么MiMo-V2.5-Pro值得一试。100T的免费Token额度足以支撑大量的实验和原型开发。若考虑本地部署,1T参数的Pro版对算力要求极高,但310B/15B激活的V2.5版本则相对可行,且已有SGLang、vLLM等推理框架支持,部署难度可控。当然,任何模型的基准测试成绩与实际应用体验之间都可能存在差距,最终的选择还需结合具体业务场景进行验证。

总而言之,1T参数完全开源,100T Token免费赠送,MIT协议任君使用——这套组合拳,确实很“小米”。

信息来源

  • MiMo-V2.5 官方博客
  • MiMo-V2.5-Pro 官方博客
  • HuggingFace MiMo-V2.5 模型卡
  • HuggingFace MiMo-V2.5-Pro 模型卡
  • MiMo 开放平台
  • VentureBeat: Xiaomi stuns with new MiMo V2 Pro LLM
来源:https://juejin.cn/post/7633725015481647110
上一篇Clawdbot爆火背后是生产力革命还是套壳炒作 下一篇免费在线视频编辑工具Video Candy轻松处理各类视频
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
GPT Workspace通过GPT-5强化Google Workspace,文档表格邮件创作效率与智能化提升
AI教程 · 2026-05-29

GPT Workspace通过GPT-5强化Google Workspace,文档表格邮件创作效率与智能化提升

GPT Workspace 产品介绍:GPT-5 如何增强 Google Workspace 工作效率 如果你每天都在使用 Google Workspace 进行文档撰写、表格处理、邮件沟通和演示制作,一定深有体会:大量重复性的办公任务耗费了宝贵的时间。现在,GPT Workspace 将 GPT-

AI助手提升年终总结与周报效率的精准营销策略
AI教程 · 2026-05-29

AI助手提升年终总结与周报效率的精准营销策略

适合需求:在信息爆炸的时代,企业所承受的竞争压力几乎覆盖了所有维度,其中营销领域尤为令人困扰。无论是撰写年终总结还是生成周报,精准的营销策略已成为不可或缺的需求——没有谁愿意在庞杂的数据中迷失方向。当我们复盘营销活动时,总会思考:过去哪些数字营销策略真正发挥了效果?哪些内容营销策略有待改进?然而实际

Afri Studio 非洲创意工作室
AI教程 · 2026-05-29

Afri Studio 非洲创意工作室

Afri Studio是什么先来聊聊Afri Studio——它是Afri AI团队推出的一款AI媒体创作工作室,目标很明确:把原本高高在上的智能技术拉下神坛,让普通用户也能轻松生成高质量的文本、图像、音频等内容。换句话说,这是一个面向内容创作者、博主、营销人员、艺术家的“AI工具箱”,帮你高效搞定

Geniea专注Midjourney提示词优化提升创意生成效率
AI教程 · 2026-05-29

Geniea专注Midjourney提示词优化提升创意生成效率

Geniea产品详解:Midjourney提示优化工具Geniea是一款专注于Midjourney提示词优化的智能平台,致力于帮助创作者快速生成高质量且富有创意的提示方案。无论您需要电影镜头、食品摄影还是汽车广告等场景的提示词,只需输入简单指令,系统便会自动输出优化后的提示文本,大幅提升创作效率。提

幼儿园大班毕业典礼方案PPT AI轻松制作精彩回顾
AI教程 · 2026-05-29

幼儿园大班毕业典礼方案PPT AI轻松制作精彩回顾

使用情景 每年毕业季来临之际,幼儿园大班毕业典礼的筹备工作,总是牵动着众多老师、家长和孩子们的心弦。这不仅仅是一场简单的活动,更是孩子们人生中首个重要的成长仪式,标志着他们告别幼儿时光、迈向新阶段的里程碑。对于家长而言,这也是一次充满感怀的“毕业”,意味着一段陪伴旅程的暂时落幕。 如何让这场典礼既温