首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
超越DeepSeek-V4,罗福莉交出小米最强开源模型,首日适配5家国产芯片

超越DeepSeek-V4,罗福莉交出小米最强开源模型,首日适配5家国产芯片

热心网友
43
转载
2026-04-28

模型技术细节公布,测评超越DeepSeek-V4

消息来得很快。就在刚刚,由小米罗福莉团队主导研发的MiMo-V2.5系列模型正式宣布开源,采用宽松的MIT协议,这意味着商用推理和二次训练都无需额外授权,门槛大大降低。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

▲MiMo-V2.5-Pro在Hugging Face的开源页面截图

其实,这个系列在几天前(4月23日)就已经开启了公测,包含MiMo-V2.5-Pro和MiMo-V2.5两款模型。它们的卖点很明确:更强的智能体(Agent)能力、高达100万Token的上下文窗口,以及大幅提升的Token处理效率。

而今天,随着模型权重全面开放,MiMo-V2.5-Pro的完整基准测试成绩也一并揭晓。根据小米公布的数据,该模型在GDPVal-AA(Elo)、Claw-Eval(pass^3)等多个关键评测中,表现已经超过了最新开源的DeepSeek-V4-Pro,甚至压过了发布不久的Kimi K2.6等主流闭源模型,实现了总体最佳。

▲MiMo-V2.5-Pro的最新测评成绩

更值得玩味的是生态布局的速度。开源首日,小米就宣布MiMo-V2.5-Pro已完成与阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯共七家芯片厂商的接入适配。同时,整个MiMo-V2.5系列也同步完成了对SGLang和vLLM这两大主流推理框架的“Day 0”适配,可谓“开箱即用”。

当然,光有技术和适配还不够,生态激活是关键。小米同步推出了“MiMo Orbit计划”,包含两大举措:一是“百万亿Token创造者激励计划”,承诺在30天内免费发放总计100万亿Token权益;二是“Agent生态共建计划”,目前已与OpenCode、Hermes Agent、KiloCode等智能体框架厂商展开了合作。

模型权重合集:

https://huggingface.co/collections/XiaomiMiMo/mimo-v25

更多细节参考模型Blog:

https://mimo.xiaomi.com/index#blog

百万亿Token计划申请网址:

https://100t.xiaomimimo.com/

01. 参数架构与训练路径解析

根据最新公开的模型卡信息,小米目前最强的MiMo-V2.5-Pro是一款参数规模达到1.02万亿的混合专家模型,其中激活参数为420亿。它基于混合注意力架构打造,相比前代,在通用能力、复杂软件工程和长序列任务处理上都有显著提升。

具体来看,它继承了MiMo-V2-Flash的混合注意力机制和多标记预测设计。局部滑动窗口注意力和全局注意力以6:1的比例交错使用,窗口大小为128个Token。这种设计在长上下文场景下效果显著,通过可学习的注意力池偏置,能将键值缓存的存储空间压缩近7倍,同时性能不打折扣。而那个轻量级的多标记预测模块,采用密集前馈网络,原生集成在训练和推理流程中,使得输出吞吐量提升了大约三倍,也加速了强化学习的部署效率。

▲MiMo-V2.5-Pro的模型架构及训练过程

训练过程则体现了清晰的阶段性策略。预训练阶段使用了27万亿Token,采用FP8混合精度,原生序列长度32K,并扩展至100万上下文。后训练则遵循一个三阶段范式:首先是监督式微调,在精选的数据对上建立基础的指令跟随能力;接着是领域专精训练,让不同的教师模型通过针对特定领域的强化学习进行优化,覆盖数学、安全、工具使用等;最后是多教师策略蒸馏,让单个学生模型在各位专精教师的Token级指导下进行学习,最终将所有能力融合到一个统一的模型中。

再来看看标准版的MiMo-V2.5。这是一个3100亿参数的稀疏MoE模型,激活参数为150亿,在48万亿Token上进行了训练。它的语言主干同样继承了混合滑动窗口注意力机制,并搭载了自研的预训练视觉和音频编码器,这两类编码器通过轻量化的投影模块实现了跨模态融合。

▲MiMo-V2.5架构

它的训练路径更为细致,分为五个阶段:从多样化的文本预训练开始,搭建语言模型主干;接着进行投影层预热,实现多模态对齐;然后依托高质量跨模态数据开展大规模多模态预训练;第四步是监督微调与智能体后训练,同时将上下文窗口从32K逐步扩容至100万Token;最后通过强化学习与多目标偏好蒸馏,进一步强化模型的综合能力。

那么,实际效果如何?从公布的测评结果看,MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多个评测集上,成绩大幅超越了DeepSeek最新发布的DeepSeek-V4-Flash。

▲MiMo-V2.5最新测评情况

02. 开源首日,完成阿里平头哥沐曦等7家芯片厂商适配

模型性能是一方面,能否快速、高效地部署落地则是另一场硬仗。小米在开源首日就亮出了一份覆盖主流芯片的适配清单,这无疑是向市场展示其生态决心和工程化能力。

具体适配情况如下:

阿里平头哥:基于真武810E芯片及全栈自研AI软件栈实现了深度适配。

亚马逊云科技:基于Trainium2芯片与Neuron SDK+vLLM推理框架完成深度适配,实现了“开源即全球可用”的首日适配。据悉,下一代3nm制程的Trainium3将进一步释放模型性能。

AMD:依托其ROCm开源软件栈,提供了Day-0适配及全面优化支持。

百度昆仑芯:通过底层算子优化与软硬件协同加速,保障模型稳定高效运行。

燧原科技:基于自研驭算TopsRider软件栈深度优化,并在燧原L600计算卡上完成了全量适配。

沐曦:基于曦云C系列GPU及全栈自研MXMACA软件栈,实现了从Triton语法到沐曦GPU指令集的端到端原生支持。

天数智芯:实现了Day 0级别的深度适配。

除了芯片生态,在推理框架层面,MiMo-V2.5系列也同步完成了对SGLang和vLLM这两大主流框架的Day 0适配,为开发者减少了部署阻力。

03. 免费发放100万亿Token,已与Hermes Agent等合作

技术开源和硬件适配搭建了舞台,而要真正激发生态活力,还需要吸引开发者“登台唱戏”。小米的“MiMo Orbit计划”正是为此而来。

计划包含两部分,首先是“百万亿Token创造者激励计划”。简单说,就是小米准备在30天内,面向全球AI开发者免费发放总计100万亿Token的调用权益,赠完即止。这无疑是吸引开发者和初创公司尝鲜、构建早期用例的一剂强心针。

该计划采用申请制,成功通过审核的开发者最高可获得“Max档位Token Plan”,包含16亿Credits,价值约659元软妹币。活动窗口期从北京时间2026年4月28日零点持续到5月28日零点。

另一部分是“Agent生态共建计划”。这项计划面向全球的智能体框架团队,提供专项支持,包括为合作框架提供MiMo Token的限免支持,并参与和赞助框架平台举办的AI Hackathon等共创活动。目前,小米已与OpenCode、Hermes Agent、KiloCode等多家Agent框架厂商展开了深度合作。

04. 结语:多款国产开源模型“亮见”交锋

纵观近期动态,大模型行业的开源竞赛正在进入新阶段。模型与国产及国际芯片的“Day 0”适配,已从值得宣传的亮点,逐渐变为参与竞争的刚需。这意味着,下一阶段的竞争焦点,将不可避免地转向推理效率和实际部署成本。

与此同时,像百亿级Token免费激励、与Agent框架生态共建这类举措,清晰地反映出行业重心正在迁移——从单纯地“拼参数、刷榜单”,转向更实际地“拼应用、建生态”。

值得注意的是,小米MiMo-V2.5-Pro在多项基准评测中直接对标并超越了DeepSeek-V4-Pro,这无异于在开源赛道上发起了一次正面“亮见”。这种高水平的直接竞争,对于整个行业而言是件好事,它有望倒逼技术快速迭代,加速推理成本的下探,并最终提升智能体在真实场景中的任务完成率。国产大模型的开源战场,好戏才刚刚开始。

来源:https://36kr.com/p/3785761705909512
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

算力底座深度协同 联想ThinkStation AI工作站全域适配DeepSeek-V4
科技数码
算力底座深度协同 联想ThinkStation AI工作站全域适配DeepSeek-V4

DeepSeek再炸场!模型本地化部署迎来新拐点 4月24日,AI领域又迎来一个重磅时刻:DeepSeek-V4系列模型预览版正式上线并同步开源。更值得关注的是,联想AI工作站宣布完成全面适配。这意味着什么?简单说,顶尖大模型跑在自家电脑上的时代,门槛正在被大幅拉低。 效率天花板:百万级超长上下文

热心网友
04.28
超越DeepSeek-V4,罗福莉交出小米最强开源模型,首日适配5家国产芯片
业界动态
超越DeepSeek-V4,罗福莉交出小米最强开源模型,首日适配5家国产芯片

模型技术细节公布,测评超越DeepSeek-V4 消息来得很快。就在刚刚,由小米罗福莉团队主导研发的MiMo-V2 5系列模型正式宣布开源,采用宽松的MIT协议,这意味着商用推理和二次训练都无需额外授权,门槛大大降低。 ▲MiMo-V2 5-Pro在Hugging Face的开源页面截图 其实,这个

热心网友
04.28
DeepSeek输入缓存降价
科技数码
DeepSeek输入缓存降价

DeepSeek API价格大幅下调:输入缓存命中成本降至原价十分之一 就在今天,DeepSeek官方正式宣布了一项重大调整:其全系列API服务的输入缓存命中价格,直接降至原有价格的十分之一。这还没完,如果你选择Pro模型,还能叠加一个限时优惠——在2026年5月5日之前,价格再打2 5折。 这意味

热心网友
04.27
DeepSeek-V4价格暴降90%!百万token仅2分钱,梁文峰送你token自由
AI
DeepSeek-V4价格暴降90%!百万token仅2分钱,梁文峰送你token自由

DeepSeek再掀价格风暴:顶级模型成本降至“白菜价”,行业格局生变? 昨晚,AI圈又被一条消息刷屏了:DeepSeek-V4系列模型的价格,再次被拦腰斩断,甚至更狠。其全系两款模型在输入缓存命中场景下的定价,直接降至首发价格的十分之一,这已不仅仅是降价,更像是一次对市场预期的彻底重塑。 具体来看

热心网友
04.27
DeepSeek-V4-Pro限时特惠 2.5折一直持续到5月5日
科技数码
DeepSeek-V4-Pro限时特惠 2.5折一直持续到5月5日

全球AI大模型迎来重磅更新:GPT-5 5与DeepSeek-V4同日登场 上周的AI圈,可以说是热闹非凡。先是OpenAI在24日凌晨扔出了“王炸”,正式发布了旗舰模型GPT-5 5。没想到,几个小时后,来自杭州的DeepSeek也亮出了自己的底牌,推出了全新的DeepSeek-V4系列模型,预览

热心网友
04.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Signlz AI : AI辅助PRD生成工具
AI
Signlz AI : AI辅助PRD生成工具

需求人群 如果你是一位产品经理或相关专业人士,正在为如何高效启动一个新项目、打磨一份专业的产品需求文档(PRD)而头疼,那么Signlz可能就是为你量身打造的工具。它核心解决的,就是帮助这个群体快速且高质量地迈出产品创新的第一步。 使用场景 那么,具体在哪些环节它能大显身手呢?最典型的,莫过于当你需

热心网友
04.28
GraphQL AI : AI开发者平台
AI
GraphQL AI : AI开发者平台

需求人群 如果你正在开发AI工具、机器人或者聊天助手,那么下面这个平台值得你特别关注。它瞄准的正是这个快速发展的开发者社区。 使用场景 具体能拿它来做什么呢?场景其实很丰富。比如,你可以用它快速搭建一个聊天机器人,来高效处理用户的那些常见问题,解放人力。艺术创作方面,它集成的图像生成模型能帮你产出风

热心网友
04.28
当Perps DEX进入下一阶段,交易者真正需要什么?
web3.0
当Perps DEX进入下一阶段,交易者真正需要什么?

2026 年 4 月,加密市场重新升温。BTC 一度触及 7 9 万美元,随后在 7 7 万美元附近震荡。随着资金回流、宏观预期变化和机构交易活跃,市场注意力再次回到 BTC 及其衍生品交易。 行情一旦回归,最先热闹起来的总是合约市场。更高的杠杆、更低的费用、更快的开仓速度,总能迅速把交易者拉回屏幕

热心网友
04.28
Vidby:字幕翻译配音服务,一款专业的AI视频翻译和配音工具
AI
Vidby:字幕翻译配音服务,一款专业的AI视频翻译和配音工具

想把你的视频内容传递给全世界的观众?语言障碍往往是最大的拦路虎。好在,现在有了专业的解决方案。Vidby,这款由瑞士Vidby AG公司打造的AI视频翻译与配音工具,正是为此而生。它能快速且精准地处理视频翻译、字幕生成和语音配音等一系列任务,帮你轻松跨越语言鸿沟。 那么,它是如何做到的呢?核心在于其

热心网友
04.28
百度:文心下一代模型 4.5 系列 6 月 30 日起开源
AI
百度:文心下一代模型 4.5 系列 6 月 30 日起开源

百度官宣文心大模型4 5系列将至,并定下开源时间表 情人节这天,国内AI领域迎来一则重磅消息。百度正式宣布,将在未来几个月内,逐步推出其文心大模型的下一代版本——4 5系列。而真正的重头戏在于,该系列模型将从今年6月30日起正式开源。这意味着,开发者与企业获得行业顶级大模型技术的门槛,将迎来一次显著

热心网友
04.28