MiMo-V2.5 Pro登顶开源Agent王者罗福莉谈模型与Harness同步演进_AI热点日报

MiMo-V2.5 Pro登顶开源Agent王者罗福莉谈模型与Harness同步演进

类型：热点整理2026-05-18

今天凌晨，AI开源社区迎来重磅消息：小米正式开源其旗舰级大模型 MiMo-V2 5 系列。其中，性能最强的 MiMo-V2 5-Pro 在权威 Agent 基准测试中，力压 DeepSeek V4-Pro、Kimi K2 6 及 GLM 5 1 等强劲对手，登顶开源模型榜首。小米此次开源行动极为迅

今天凌晨，AI开源社区迎来重磅消息：小米正式开源其旗舰级大模型 MiMo-V2.5 系列。其中，性能最强的 MiMo-V2.5-Pro 在权威 Agent 基准测试中，力压 DeepSeek V4-Pro、Kimi K2.6 及 GLM 5.1 等强劲对手，登顶开源模型榜首。

小米此次开源行动极为迅速。在模型公测仅5天后，由罗福莉领衔的团队便将 MiMo-V2.5-Pro 与 MiMo-V2.5 两大主力模型的完整权重及分词器（tokenizer）上传至 Hugging Face 平台。

两款模型均支持高达1M（百万级）的上下文长度，并采用了极为宽松的 MIT 开源协议。这意味着开发者可自由进行商用部署、持续预训练、LoRA 微调乃至二次开发，几乎没有任何限制。此举极大地降低了技术门槛，为模型的大规模应用与生态繁荣奠定了坚实基础。

与此同时，小米 MiMo 团队同步启动了“Xiaomi MiMo Orbit 百万亿Token 创造者激励计划”，旨在鼓励全球开发者与创作者基于其开源模型进行创新与应用探索。这对于整个AI技术社区而言，无疑注入了新的活力。

飞书文档 - 图片

值得一提的是，就在上周，MiMo 模型负责人、有“AI天才少女”之称的罗福莉进行了一次深度的技术访谈。她详细分享了近两个月深度使用 Agent 产品的体验与思考，内容涵盖三次关键认知转变、持久化记忆的核心价值、Agent自学习的潜在路径，以及对当前主流技术范式的独到见解。

接下来，我们将首先解析 MiMo-V2.5 系列在 Agent 能力上的卓越表现，随后深入探讨罗福莉关于 Agent 技术前沿的深刻洞察。

Agent性能稳居开源模型第一

MiMo-V2.5 系列包含两款核心模型。MiMo-V2.5-Pro 专为复杂 Agent 任务与代码生成优化，总参数量达1.02T，激活参数量为42B。MiMo-V2.5 则是一款具备强大 Agent 能力的原生全模态模型，总参数310B，激活参数15B。

要评估其真实实力，需了解当前衡量通用 Agent 能力的几大核心基准：

GDPVal-AA（Elo）：该基准模拟真实世界中的专业工作场景，覆盖44种职业。其评估方式直接聚焦最终产出质量，并采用类似国际象棋的 Elo 评级系统进行排名，极具说服力。

τ³-Bench：该基准模拟真实客服等多轮对话场景，重点考察 Agent 在长程交互中保持状态一致性、遵循策略的可靠性与稳定性，评估指标为多次运行的成功率。

ClawEval（pass^3）：这是2026年新推出的高难度端到端评估基准。要求 Agent 在全程透明、可能受干扰的环境中，独立完成300个真实任务。其特色在于“轨迹感知评分”，每一步均有执行轨迹、审计日志和环境快照三重证据记录，且要求3次独立运行全部成功方算通过。

MiMo-V2.5-Pro 的表现堪称惊艳：在 GDPVal-AA（Elo）上获得1581分，在 ClawEval（pass^3）上达到63.8分，在 τ³-Bench 上取得72.9分。这三项成绩不仅在所有开源模型中位列第一，即使与 Gemini 3.1Pro、GPT-5.4、Claude Opus 4.6 等顶级闭源模型相比，也处于同一梯队。

除了顶尖性能，其效率优势同样突出。V2.5-Pro 的 Token 处理效率相比 Kimi K2.6 提升约42%，编码能力直逼 DeepSeek V4 Pro，而推理成本更具竞争力。V2.5 模型也展现出优异的性价比。

对开发者而言，部署便捷性至关重要。两款模型在 Hugging Face 支持一键下载，小米与社区紧密协作，实现了在 vLLM 和 SGLang 等主流推理框架上的当日适配。此外，模型原生支持 FP8 混合精度，经量化后甚至可在消费级显卡上流畅处理长上下文任务，显著降低了硬件门槛。

罗福莉深度解读Agent技术前沿

访谈伊始，罗福莉便指出：过去两个月深度使用 OpenClaw 的经历，彻底改变了她对 AI 技术演进路径的认知。

从怀疑到依赖：OpenClaw 使用体验的转变

她坦言，今年一月初次听说 OpenClaw 时，与多数人看法一致，认为这“不过是 Claude Code 加了个聊天界面”。然而，春节假期深入体验后，她的看法发生了根本性转变。她感受到了一种强烈的自主性和独特的“产品灵魂”，一种由极致细节设计带来的温暖与关怀感。

例如它设计了 search.md 这样的机制。再举一个简单细节：它如何感知时间？它会在每轮对话的上下文自动嵌入当前时间戳。类似这样精妙编排的上下文设计无处不在，正是在这些不易察觉之处，体验被塑造得无比流畅。

使用第二天，她就“如何激发团队好奇心”这一话题与 OpenClaw 深入探讨一小时，并将讨论成果转化为一套可用的 Skills（技能）。自此，无论是人才选拔还是团队管理，她都会咨询 OpenClaw，感觉其逐渐成为了自己的“数字分身”。

第三天，她的思考更进一步：“在 Agent 框架下工作，应如何设计多轮交互？”这需要模拟用户 Agent。为此，她就“如何构建优秀的用户 Agent”与 OpenClaw 探讨了一两个小时，并基本实现了构想。

这个用户 Agent 可以与我们现有的后训练（post-training）框架结合，用于构建更丰富的智能体场景数据。无论是进行有监督微调（SFT）还是强化学习（RL），它都扮演着核心数据源的角色。

回顾整个过程，她认为自己的认知经历了三次跃迁：“从最初惊叹于其有灵魂的产品设计，到依赖它分担工作与生活事务，最终它直接推动并塑造了我的研究方向。”每一天都带来新的启发。

此后，她开始系统分析 OpenClaw 框架优于 Claude Code 的深层原因。她指出：

首先，它具备一套更持久、更健壮的记忆系统。这种耐用性体现在记忆的分层与分级管理机制上，这是使用 Claude Code 时无法体验的。其次，是多模型的智能协同能力，这超出了我最初的预期。例如，当遇到视频理解任务时，在 OpenClaw 中只需上传视频，它会自动调度能力更强的专用视频模型处理，用户无需手动干预。

她总结道，OpenClaw 的核心产品逻辑在于“通过一整套精密的 Agent 编排流程，最大限度地弥补底层模型的能力短板”。

为验证这一观点，团队将 MiMo V2 Flash 和一个近期训练的、仅3B参数的端侧小模型接入 OpenClaw 框架，结果发现它们竟能完成一些原本认为小模型无法胜任的任务。这让她确信，“精巧复杂的 Agent 框架设计，能极大弥补模型本身的能力缺陷”，这正是“OpenClaw 相比 Claude Code 的差异化核心竞争力”。

持久化记忆：优秀Agent框架的基石

罗福莉强调，持久化记忆是优秀 Agent 框架的基本特征之一。

OpenClaw 的设计借鉴并超越了 Claude Code 的记忆系统思路，“例如在会话上下文即将耗尽时进行智能压缩存储，在任务完成后执行计划性的记忆归档，从而确保跨会话的上下文信息能高效共享与复用。”

但 OpenClaw 思考得更深远，它专注于如何端到端地优化任务完成度，并针对当前模型在端到端任务中的短板进行专项设计，因此催生了持久化记忆等创新。后来，这些优秀设计也被 Claude Code 吸收借鉴。

她由此提出一个重要观察：这种新型 Agent 框架配合一个“中等能力”的模型，或许“能在85%的任务上达到与 Claude Sonnet 相当的水平”。这揭示了卓越的框架设计对模型能力具有巨大的放大效应。

Agent的“自学习”演进路径

关于 Agent 如何实现“自学习”，罗福莉分享了她的推演。她认为最可行的路径是：模型与 Agent 架构必须协同进化。

随着模型通过强化学习等方式持续进步，整个 Agent 框架实际上也在被重塑。这包括两部分：一是发送给模型的静态信息（如记忆库、技能文件夹等在新会话中传递的内容），这些应在训练过程中动态更新；二是动态信息，即 Agent 架构设计本身，这一点至关重要。

不同的应用场景（如软件工程与金融分析）需要不同的架构设计。因此，在提升模型底层能力的同时，必须同步优化 Agent 框架对该模型的适配度与泛化能力，二者相辅相成，方能迈向真正的“自学习”。

Agent框架与产品的本质区别

当被问及 Agent 框架是否等同于“产品”时，罗福莉给出了清晰界定。

她认为，“产品”通常指用户能直接感知的人机交互界面。而 Agent 框架则位于这层界面之下，它定义了用户与模型之间沟通的底层逻辑、任务调度与决策流程。这正对应了今年AI领域热议的“Harness”（驾驭层）概念。

她进一步阐释，一个成熟的 Agent 框架需要深刻理解所调度模型的能力边界与优劣，知晓如何为效果或成本进行最优调度。这个介于人与模型之间的中间层可以非常“厚重”，承载大量复杂性，而前端的用户界面反而可以做得非常“轻薄”，不再是系统瓶颈。

她还点出了一个关键差异：“Claude Code 本身就是一个极其复杂的 Agent 框架，只是因其闭源而显得神秘。OpenClaw 是开源的，你可以透彻理解其设计并自行修改。这种‘可塑性’至关重要。”

MLA机制与Agent范式的冲突

在讨论模型架构时，罗福莉提出了一个挑战性观点：尽管 MLA（多头潜在注意力机制）在传统长文本对话中表现出色，能有效减少 KV Cache，但她认为其设计不符合 Agent 的范式要求。

MLA 的原始设计目标，是在当时的 H 系列芯片上优化访存计算比，突破访存瓶颈，避免算力闲置。在这种强约束下，模型架构本身的创新空间实际上非常有限。

那么，若想既保留关键 KV Cache，又提升推理速度，有何他法？她提到了 MTP（多Token预测）技术，该技术可从另一维度将实际推理速度提升数倍。

但问题在于，MLA 结构下很难有效集成 MTP。因为 MLA 已在压缩与访存间达到了精妙平衡。若强行加入 MTP，瓶颈将从访存转移至计算，变得得不偿失。因此，目前所有基于 MLA 结构的模型，据我推测均未采用 MTP，这也是它们在部分场景下推理相对较慢的原因之一。

她与团队选择了不同的技术路径：利用滑动窗口（Sliding Window）节省下来的注意力计算量，来“支撑” MTP 的运行。他们在架构上做出了大胆创新：

我们将全量注意力层与滑动窗口层的混合比例推向极致，达到 7:1。这样，通过滑动窗口层减少了 KV Cache 占用，使模型处理长文本更高效、支持上下文更长。节省出的算力则用于支持 MTP，提升推理速度。

通过这一设计，在实际推理中实现了访存与计算的良好平衡，同时兼顾了长文本处理的经济性与高速推理性能。

参考链接

https://www.youtube.com/watch?v=V9eI-t3TApE

https://x.com/_LuoFuli/status/2048851054662762618?s=20

来源：https://www.51cto.com/article/841963.html

OpenClaw

延伸阅读

补充最近整理过的热点入口。