首页 游戏 软件 资讯 排行榜 专题
首页
AI
小米最强开源模型罗福莉发布 适配五款国产芯片性能超越DeepSeek

小米最强开源模型罗福莉发布 适配五款国产芯片性能超越DeepSeek

热心网友
29
转载
2026-05-18

今天,国内大模型开源领域迎来一个重磅消息。小米正式开源了由罗福莉团队研发的MiMo-V2.5系列模型,采用宽松的MIT协议。这意味着无论是商业推理部署还是二次训练,都无需额外授权,为开发者提供了极大的便利。

▲MiMo-V2.5-Pro在Hugging Face的开源页面截图

实际上,该系列模型已于4月23日开启公测,包含MiMo-V2.5-Pro和MiMo-V2.5两款。它们不仅具备更强的智能体(Agent)能力,支持高达100万Token的上下文长度,而且在Token处理效率上也有显著提升,性能表现优异。

随着MiMo-V2.5-Pro完整基准测试结果的公布,小米方面宣称,其在GDPVal-AA(Elo)、Claw-Eval(pass^3)等多个关键测评中,表现超越了最新开源的DeepSeek-V4-Pro模型,也优于近期发布的Kimi K2.6等主流闭源模型,实现了综合性能的最佳表现。

▲MiMo-V2.5-Pro的最新测评成绩

更值得关注的是其生态布局的速度。开源首日,MiMo-V2.5-Pro便宣布已完成与阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯等多家主流芯片厂商的接入适配。同时,该系列模型也同步完成了对SGLang和vLLM这两大主流推理框架的“Day 0”适配,确保了开箱即用的部署体验。

此外,小米还配套推出了两项生态计划:一是“百万亿Token创造者激励计划”,计划在30天内免费发放总计100万亿Token的权益;二是“Agent生态共建计划”,目前已与OpenCode、Hermes Agent、KiloCode等智能体框架厂商展开合作,共同构建繁荣的开发者生态。

一、模型技术细节公布,测评超越DeepSeek-V4

根据小米最新公开的模型卡信息,其迄今为止最强的模型MiMo-V2.5-Pro,是一款参数规模达到1.02万亿的混合专家模型,其中激活参数为420亿。它基于混合注意力架构,相比前代模型,在通用智能、复杂软件工程以及长序列任务处理方面,都有明显进步。

该模型继承了MiMo-V2-Flash的混合注意力机制和多标记预测设计。具体来说,局部滑动窗口注意力与全局注意力以6:1的比例交错使用,窗口大小为128个Token。在处理长上下文时,通过可学习的注意力池偏置技术,将键值缓存的存储需求降低了近7倍,同时保持了性能。其集成的轻量级多标记预测模块,采用密集前馈神经网络,不仅将输出吞吐量提升了约三倍,也加速了强化学习的部署流程。

▲MiMo-V2.5-Pro的模型架构及训练过程

在训练方面,模型使用了27万亿Token进行预训练,采用FP8混合精度,原生序列长度为32K,并可扩展至100万Token。后训练则遵循三阶段范式:首先是监督式微调,在精选数据对上建立基础的指令跟随能力;其次是领域专精训练,针对数学、安全、工具使用等不同领域,分别用强化学习优化特定的教师模型;最后是多教师策略蒸馏,让单个学生模型在各位专精教师的Token级指导下进行学习,最终将所有能力融合到一个统一的模型中。

再来看看MiMo-V2.5。这是一个3100亿参数的稀疏混合专家模型,拥有150亿激活参数,在48万亿Token上进行了训练。它的语言主干框架同样继承了混合滑动窗口注意力机制,并搭载了自研的预训练视觉与音频编码器,这两类编码器通过轻量化的投影模块实现跨模态融合。

▲MiMo-V2.5架构

它的训练过程更为细致,分为五个阶段:从多样化的文本预训练构建语言模型主干;进行投影层预热以实现多模态对齐;开展大规模多模态预训练;执行监督微调与智能体训练,并将上下文窗口从32K逐步扩展至100万Token;最后通过强化学习与多目标偏好蒸馏,进一步强化模型的综合能力。

从公布的测评结果看,MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多个基准测试中,成绩大幅超越了DeepSeek最新发布的DeepSeek-V4-Flash模型,展现出强大的竞争力。

▲MiMo-V2.5最新测评情况

二、开源首日,完成阿里平头哥沐曦等7家芯片厂商适配

模型性能是一方面,落地应用的便捷性同样关键。小米在开源首日便公布了广泛的芯片生态与推理框架适配情况,MiMo-V2.5-Pro已与多家主流厂商完成深度对接: 阿里平头哥基于自研的真武810E芯片及全栈AI软件栈实现了适配;亚马逊云科技则利用其Trainium2芯片与Neuron SDK+vLLM框架,做到了“开源即全球可用”;AMD通过其ROCm开源软件栈提供了“Day-0”级别的全面优化支持。 此外,百度昆仑芯通过底层算子优化与软硬件协同来保障运行效率;燧原科技基于自研的驭算TopsRider软件栈,在其L600产品上完成了全量适配;沐曦实现了从Triton语法到自家GPU指令集的端到端原生支持;天数智芯也达成了“Day 0”级深度适配。 除了芯片,MiMo-V2.5系列模型也同步完成了对SGLang和vLLM这两大主流推理框架的即时适配,为开发者提供了多样化的部署选择。

三、免费发放100万亿Token,已与Hermes Agent等合作

为了加速开发者生态的构建,小米同步推出了名为“MiMo Orbit”的计划,主要包括两部分。 其一是“百万亿Token创造者激励计划”。该计划面向全球AI开发者与用户,在30天内免费发放总计100万亿Token的权益。采取申请制,通过审核的申请者最高可获得包含16亿Credits的Max档位套餐。活动期限为北京时间2026年4月28日至5月28日。 其二是“Agent生态共建计划”。该计划旨在为全球智能体框架团队提供专项支持,包括提供限免的MiMo Token,并参与或赞助各框架平台的AI黑客松等共创活动。目前,小米已与OpenCode、Hermes Agent、KiloCode等多家智能体框架厂商展开了深度合作,共同推动AI应用生态的发展。

结语:多款国产开源模型“亮见”交锋

近期,大模型行业的开源竞赛日趋激烈。模型与国产及国际芯片的“Day 0”适配,已从一个宣传亮点转变为基本要求,推理效率和部署成本正成为下一阶段竞争的核心战场。同时,动辄百亿、万亿Token的免费激励,以及与Agent框架的生态共建,都清晰地表明,行业的竞争焦点正在从单纯的“拼参数规模”转向更实际的“拼应用生态与用户体验”。

值得注意的是,小米MiMo-V2.5-Pro在多项基准测试中直接对标并超越了DeepSeek最新开源的顶级模型,这无疑是在开源赛道上的一次正面“亮见”。这种高强度的竞争,有望倒逼整个行业更快地降低推理成本,并切实提升智能体在真实场景中的任务完成能力,最终受益的将是整个开发者生态和终端用户。

来源:https://www.163.com/dy/article/KRJCQA0A051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepSeek V4构建RAG知识库导入产品手册实现智能问答
AI
DeepSeek V4构建RAG知识库导入产品手册实现智能问答

想要基于DeepSeek V4构建一个能够精准理解产品手册内容的智能问答系统?这个需求非常贴合企业知识管理的实际场景。直接对大模型进行微调不仅成本高昂、周期漫长,对于需要即时准确响应的内部知识库应用而言,采用检索增强生成(RAG)架构无疑是当前更高效、更实用的技术路径。 然而,DeepSeek V4

热心网友
05.17
DeepSeek V4 Pro专家模式开启与推理能力提升进阶指南
AI
DeepSeek V4 Pro专家模式开启与推理能力提升进阶指南

想用上DeepSeek最新的V4 Pro版本,体验它那更强的推理能力?你可能已经接入了API,或者在网页端、APP端看到了相关功能,但感觉效果和预期有差距。这很可能是因为你的会话还运行在默认的“快速模式”上。要真正激活那个拥有1 6T参数、采用MoE 4 0架构并具备R1推理增强的深度模型,你需要手

热心网友
05.17
Ollama运行DeepSeek V4显存不足的量化解决方案
AI
Ollama运行DeepSeek V4显存不足的量化解决方案

当您在Ollama中尝试运行DeepSeek V4模型时,如果遇到进程卡死、无响应或直接报错退出的问题,请不要急于归咎于您的硬件设备。这很可能源于一个关键原因:截至目前,DeepSeek V4模型尚未在Ollama的官方模型库中正式发布。更重要的是,其公开发布的原始权重格式(通常是Hugging F

热心网友
05.17
DeepSeek V4模型转换为AWQ格式的完整教程
AI
DeepSeek V4模型转换为AWQ格式的完整教程

将DeepSeek V4的原始PyTorch权重转换为AWQ格式,是在有限显存条件下实现低延迟、高精度推理的成熟方案。AWQ(激活感知权重量化)的核心原理非常巧妙:它并非对所有参数进行均等压缩,而是通过分析模型在前向传播中的激活分布,精准识别并保留对输出结果影响最显著的“关键权重”。这种方法使得模型

热心网友
05.17
DeepSeek V4 GGUF模型量化与LlamaCpp本地部署指南
AI
DeepSeek V4 GGUF模型量化与LlamaCpp本地部署指南

手头已经下载了DeepSeek V4的模型文件,但在llama cpp中直接加载却无法运行?这通常是因为模型尚未转换为llama cpp兼容的GGUF格式,或者没有针对您的硬件配置进行适当的量化优化。别担心,按照以下系统化的操作流程,您就能顺利解决这一问题。 一、确认模型原始格式并获取适配分支 目前

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

微星PRO MAX系列ATX 3.1白金全模组电源上市 579元起售
科技数码
微星PRO MAX系列ATX 3.1白金全模组电源上市 579元起售

微星PRO MAX系列ATX 3 1全模组电源现已于京东平台全面上市。该系列精心规划了850W、1000W与1200W三档功率规格,全线产品均严格通过80PLUS白金能效认证,为用户带来高效节能的供电体验。首发期间,850W版本售价579元,1000W版本679元,1200W版本799元,参与晒单活

热心网友
05.18
光帆科技发布首款带摄像头AI耳机5月15日正式上市
科技数码
光帆科技发布首款带摄像头AI耳机5月15日正式上市

行业首款集成视觉能力的AI智能耳机即将面世。光帆科技近日正式宣布,其创新产品“光帆全感AI耳机”定于5月15日全面发售。这款耳机以“全感知、主动式、个性化”为核心定位,旨在彻底革新用户与可穿戴音频设备之间的交互模式。 本质上,它颠覆了传统耳机的被动响应模式。根据官方介绍,这款AI耳机能够主动感知并理

热心网友
05.18
币安止损设置技巧与参考指标全解析
web3.0
币安止损设置技巧与参考指标全解析

止损是交易中控制风险的关键手段,在币安等交易平台设置止损时,主要参考市场波动率、技术分析关键位以及个人风险承受能力。合理的止损应基于对价格走势的客观判断,而非情绪化决策,同时需结合仓位管理,避免因单次止损过大而影响整体资金安全。动态调整止损位以适应市场变化,是提升交易纪律性的重要环节。

热心网友
05.18
Agent时代HTML逆袭 Markdown为何不再受宠
科技数码
Agent时代HTML逆袭 Markdown为何不再受宠

过去两年,要问大模型最习惯用什么格式交付内容,答案多半是Markdown。 原因不难理解:Markdown足够干净,没有冗余格式,复制到文档、知识库、GitHub,甚至直接粘贴到微信公众号后台,基本都不会出问题。某种程度上,它已经被公认为AI时代最理想的标记语言。 不过,随着Agent时代的到来,M

热心网友
05.18
iPhone 18 Pro七大升级曝光 小岛设计续航突破
科技数码
iPhone 18 Pro七大升级曝光 小岛设计续航突破

距离2026-2027年度旗舰手机的大幕拉开,大约还有四个月时间。按照惯例,届时在全球舞台上率先亮相的主流旗舰,很可能依然是苹果的iPhone 18 Pro系列。 就在昨天(5月8日),知名爆料人Jon Prosser发布了iPhone 18 Pro Max的视频渲染图,与此同时,关于该系列手机的七

热心网友
05.18