MiMo-V2.5 Pro登顶开源Agent王者 罗福莉谈模型与Harness同步演进
今天凌晨,AI开源社区迎来重磅消息:小米正式开源其旗舰级大模型 MiMo-V2.5 系列。其中,性能最强的 MiMo-V2.5-Pro 在权威 Agent 基准测试中,力压 DeepSeek V4-Pro、Kimi K2.6 及 GLM 5.1 等强劲对手,登顶开源模型榜首。

小米此次开源行动极为迅速。在模型公测仅5天后,由罗福莉领衔的团队便将 MiMo-V2.5-Pro 与 MiMo-V2.5 两大主力模型的完整权重及分词器(tokenizer)上传至 Hugging Face 平台。
两款模型均支持高达1M(百万级)的上下文长度,并采用了极为宽松的 MIT 开源协议。这意味着开发者可自由进行商用部署、持续预训练、LoRA 微调乃至二次开发,几乎没有任何限制。此举极大地降低了技术门槛,为模型的大规模应用与生态繁荣奠定了坚实基础。
与此同时,小米 MiMo 团队同步启动了“Xiaomi MiMo Orbit 百万亿Token 创造者激励计划”,旨在鼓励全球开发者与创作者基于其开源模型进行创新与应用探索。这对于整个AI技术社区而言,无疑注入了新的活力。

值得一提的是,就在上周,MiMo 模型负责人、有“AI天才少女”之称的罗福莉进行了一次深度的技术访谈。她详细分享了近两个月深度使用 Agent 产品的体验与思考,内容涵盖三次关键认知转变、持久化记忆的核心价值、Agent自学习的潜在路径,以及对当前主流技术范式的独到见解。
接下来,我们将首先解析 MiMo-V2.5 系列在 Agent 能力上的卓越表现,随后深入探讨罗福莉关于 Agent 技术前沿的深刻洞察。
Agent性能稳居开源模型第一
MiMo-V2.5 系列包含两款核心模型。MiMo-V2.5-Pro 专为复杂 Agent 任务与代码生成优化,总参数量达1.02T,激活参数量为42B。MiMo-V2.5 则是一款具备强大 Agent 能力的原生全模态模型,总参数310B,激活参数15B。
要评估其真实实力,需了解当前衡量通用 Agent 能力的几大核心基准:
GDPVal-AA(Elo):该基准模拟真实世界中的专业工作场景,覆盖44种职业。其评估方式直接聚焦最终产出质量,并采用类似国际象棋的 Elo 评级系统进行排名,极具说服力。
τ³-Bench:该基准模拟真实客服等多轮对话场景,重点考察 Agent 在长程交互中保持状态一致性、遵循策略的可靠性与稳定性,评估指标为多次运行的成功率。
ClawEval(pass^3):这是2026年新推出的高难度端到端评估基准。要求 Agent 在全程透明、可能受干扰的环境中,独立完成300个真实任务。其特色在于“轨迹感知评分”,每一步均有执行轨迹、审计日志和环境快照三重证据记录,且要求3次独立运行全部成功方算通过。
MiMo-V2.5-Pro 的表现堪称惊艳:在 GDPVal-AA(Elo)上获得1581分,在 ClawEval(pass^3)上达到63.8分,在 τ³-Bench 上取得72.9分。这三项成绩不仅在所有开源模型中位列第一,即使与 Gemini 3.1Pro、GPT-5.4、Claude Opus 4.6 等顶级闭源模型相比,也处于同一梯队。
除了顶尖性能,其效率优势同样突出。V2.5-Pro 的 Token 处理效率相比 Kimi K2.6 提升约42%,编码能力直逼 DeepSeek V4 Pro,而推理成本更具竞争力。V2.5 模型也展现出优异的性价比。
对开发者而言,部署便捷性至关重要。两款模型在 Hugging Face 支持一键下载,小米与社区紧密协作,实现了在 vLLM 和 SGLang 等主流推理框架上的当日适配。此外,模型原生支持 FP8 混合精度,经量化后甚至可在消费级显卡上流畅处理长上下文任务,显著降低了硬件门槛。
罗福莉深度解读Agent技术前沿
访谈伊始,罗福莉便指出:过去两个月深度使用 OpenClaw 的经历,彻底改变了她对 AI 技术演进路径的认知。
从怀疑到依赖:OpenClaw 使用体验的转变
她坦言,今年一月初次听说 OpenClaw 时,与多数人看法一致,认为这“不过是 Claude Code 加了个聊天界面”。然而,春节假期深入体验后,她的看法发生了根本性转变。她感受到了一种强烈的自主性和独特的“产品灵魂”,一种由极致细节设计带来的温暖与关怀感。
例如它设计了 search.md 这样的机制。再举一个简单细节:它如何感知时间?它会在每轮对话的上下文自动嵌入当前时间戳。类似这样精妙编排的上下文设计无处不在,正是在这些不易察觉之处,体验被塑造得无比流畅。
使用第二天,她就“如何激发团队好奇心”这一话题与 OpenClaw 深入探讨一小时,并将讨论成果转化为一套可用的 Skills(技能)。自此,无论是人才选拔还是团队管理,她都会咨询 OpenClaw,感觉其逐渐成为了自己的“数字分身”。
第三天,她的思考更进一步:“在 Agent 框架下工作,应如何设计多轮交互?”这需要模拟用户 Agent。为此,她就“如何构建优秀的用户 Agent”与 OpenClaw 探讨了一两个小时,并基本实现了构想。
这个用户 Agent 可以与我们现有的后训练(post-training)框架结合,用于构建更丰富的智能体场景数据。无论是进行有监督微调(SFT)还是强化学习(RL),它都扮演着核心数据源的角色。
回顾整个过程,她认为自己的认知经历了三次跃迁:“从最初惊叹于其有灵魂的产品设计,到依赖它分担工作与生活事务,最终它直接推动并塑造了我的研究方向。”每一天都带来新的启发。
此后,她开始系统分析 OpenClaw 框架优于 Claude Code 的深层原因。她指出:
首先,它具备一套更持久、更健壮的记忆系统。这种耐用性体现在记忆的分层与分级管理机制上,这是使用 Claude Code 时无法体验的。其次,是多模型的智能协同能力,这超出了我最初的预期。例如,当遇到视频理解任务时,在 OpenClaw 中只需上传视频,它会自动调度能力更强的专用视频模型处理,用户无需手动干预。
她总结道,OpenClaw 的核心产品逻辑在于“通过一整套精密的 Agent 编排流程,最大限度地弥补底层模型的能力短板”。
为验证这一观点,团队将 MiMo V2 Flash 和一个近期训练的、仅3B参数的端侧小模型接入 OpenClaw 框架,结果发现它们竟能完成一些原本认为小模型无法胜任的任务。这让她确信,“精巧复杂的 Agent 框架设计,能极大弥补模型本身的能力缺陷”,这正是“OpenClaw 相比 Claude Code 的差异化核心竞争力”。
持久化记忆:优秀Agent框架的基石
罗福莉强调,持久化记忆是优秀 Agent 框架的基本特征之一。
OpenClaw 的设计借鉴并超越了 Claude Code 的记忆系统思路,“例如在会话上下文即将耗尽时进行智能压缩存储,在任务完成后执行计划性的记忆归档,从而确保跨会话的上下文信息能高效共享与复用。”
但 OpenClaw 思考得更深远,它专注于如何端到端地优化任务完成度,并针对当前模型在端到端任务中的短板进行专项设计,因此催生了持久化记忆等创新。后来,这些优秀设计也被 Claude Code 吸收借鉴。
她由此提出一个重要观察:这种新型 Agent 框架配合一个“中等能力”的模型,或许“能在85%的任务上达到与 Claude Sonnet 相当的水平”。这揭示了卓越的框架设计对模型能力具有巨大的放大效应。
Agent的“自学习”演进路径
关于 Agent 如何实现“自学习”,罗福莉分享了她的推演。她认为最可行的路径是:模型与 Agent 架构必须协同进化。
随着模型通过强化学习等方式持续进步,整个 Agent 框架实际上也在被重塑。这包括两部分:一是发送给模型的静态信息(如记忆库、技能文件夹等在新会话中传递的内容),这些应在训练过程中动态更新;二是动态信息,即 Agent 架构设计本身,这一点至关重要。
不同的应用场景(如软件工程与金融分析)需要不同的架构设计。因此,在提升模型底层能力的同时,必须同步优化 Agent 框架对该模型的适配度与泛化能力,二者相辅相成,方能迈向真正的“自学习”。
Agent框架与产品的本质区别
当被问及 Agent 框架是否等同于“产品”时,罗福莉给出了清晰界定。
她认为,“产品”通常指用户能直接感知的人机交互界面。而 Agent 框架则位于这层界面之下,它定义了用户与模型之间沟通的底层逻辑、任务调度与决策流程。这正对应了今年AI领域热议的“Harness”(驾驭层)概念。
她进一步阐释,一个成熟的 Agent 框架需要深刻理解所调度模型的能力边界与优劣,知晓如何为效果或成本进行最优调度。这个介于人与模型之间的中间层可以非常“厚重”,承载大量复杂性,而前端的用户界面反而可以做得非常“轻薄”,不再是系统瓶颈。
她还点出了一个关键差异:“Claude Code 本身就是一个极其复杂的 Agent 框架,只是因其闭源而显得神秘。OpenClaw 是开源的,你可以透彻理解其设计并自行修改。这种‘可塑性’至关重要。”
MLA机制与Agent范式的冲突
在讨论模型架构时,罗福莉提出了一个挑战性观点:尽管 MLA(多头潜在注意力机制)在传统长文本对话中表现出色,能有效减少 KV Cache,但她认为其设计不符合 Agent 的范式要求。
MLA 的原始设计目标,是在当时的 H 系列芯片上优化访存计算比,突破访存瓶颈,避免算力闲置。在这种强约束下,模型架构本身的创新空间实际上非常有限。
那么,若想既保留关键 KV Cache,又提升推理速度,有何他法?她提到了 MTP(多Token预测)技术,该技术可从另一维度将实际推理速度提升数倍。
但问题在于,MLA 结构下很难有效集成 MTP。因为 MLA 已在压缩与访存间达到了精妙平衡。若强行加入 MTP,瓶颈将从访存转移至计算,变得得不偿失。因此,目前所有基于 MLA 结构的模型,据我推测均未采用 MTP,这也是它们在部分场景下推理相对较慢的原因之一。
她与团队选择了不同的技术路径:利用滑动窗口(Sliding Window)节省下来的注意力计算量,来“支撑” MTP 的运行。他们在架构上做出了大胆创新:
我们将全量注意力层与滑动窗口层的混合比例推向极致,达到 7:1。这样,通过滑动窗口层减少了 KV Cache 占用,使模型处理长文本更高效、支持上下文更长。节省出的算力则用于支持 MTP,提升推理速度。
通过这一设计,在实际推理中实现了访存与计算的良好平衡,同时兼顾了长文本处理的经济性与高速推理性能。
参考链接
https://www.youtube.com/watch?v=V9eI-t3TApE
https://x.com/_LuoFuli/status/2048851054662762618?s=20
相关攻略
2026年的开源AI Agent领域,正清晰地分化出两条截然不同的技术路线。一条追求确定性、可审计的企业级自动化,另一条则押注于自主性、自我优化的概率式进化。今天,我们就来深入拆解这两个最具代表性的框架——OpenClaw与Hermes Agent,看看它们在设计哲学、技术架构与适用场景上的根本分野
许多用户在使用传统AI助手时都曾遇到过这样的困扰:每次对话都像是初次见面,助手无法记住之前的交流内容、个人偏好或工作习惯,导致每次互动都需要重新开始。这种缺乏连续性的体验,往往降低了工作效率和交互的深度。 OpenClaw为解决这一问题,提出了一个直接而巧妙的方案:利用本地文件实现持久化记忆。它将A
火山引擎日志服务(TLS)为Agent助手或xClaw企业的开发和运维团队,提供了一套开箱即用的全方位OpenClaw运维观测方案。只需一键安装插件,就能实现对OpenClaw日志、指标和链路数据的零侵入、全量采集,并自动生成覆盖成本、运维、性能、安全四大核心场景的观测大盘。 概述 当一个OpenC
为AI智能体补上企业级基础设施的关键一课。 进入2025年,大模型应用的角色正经历根本性重塑。它们已超越简单的对话助手,迅速进化为能够自主调用工具、执行复杂工作流的“数字员工”。在这一进程中,以OpenClaw为代表的开源框架,扮演了至关重要的催化角色。 然而,当各行各业满怀期待地将这些框架引入企业
今天将OpenClaw升级到了最新的2026 04 09版本,在此记录升级后遇到的主要变化和关键注意事项,帮助大家顺利完成配置迁移。 首先,请通过命令行确认版本号是否更新成功: PS C: Users xxxxxx> openclaw --version OpenClaw 2026 4 9 (051
热门专题
热门推荐
在《燕云十六声》的天工地窟中,“身如飞燕”宝箱的获取是一场对玩家综合探索能力的深度考验。想要成功开启它,不仅需要耐心与观察力,更需掌握系统性的探索策略。 掌握地窟地形与核心布局 进入天工地窟后,首要任务是进行全方位的地形勘察。建议玩家先熟悉主要通道、分支岔路以及所有可能被忽略的角落,建立完整的地图认
装修这件事,说多了都是泪。找施工队像开盲盒,预算表永远在“动态调整”,设计图看得眼花缭乱……投入大量时间和精力,最后的效果可能还是差强人意。说到底,信息不对称和过程不透明,是大多数装修烦恼的根源。 好在,如今有不少专业的数字化工具,能帮我们把控关键环节。今天就来聊聊五款定位清晰、实用性强的装修类应用
在《燕云十六声》的宏大江湖中,“不见山洞”无疑是一处引人入胜的秘境。这里不仅栖息着珍奇异兽、埋藏着稀世珍宝,更交织着无数待玩家发掘的隐秘故事与特殊事件。若想彻底揭开此地的所有秘密,掌握以下探索技巧至关重要。 进入不见山洞后,首要任务是保持专注,对环境进行细致勘察。洞内的景象暗藏玄机,绝非一目了然。一
在《骷髅传奇》中,神盾系统是决定角色战力的核心模块,远非一件普通装备可比。它更像是一位能够深度定制、伴随你征战四方的忠实伙伴。本文将为你全面解析神盾系统的获取、培养与实战运用,助你将其从基础配置打造为真正的战力引擎,在游戏中脱颖而出。 获取你的第一面神盾是旅程的起点。游戏内提供了多样化的获取途径:完
天成孙悟空这款限定皮肤,以其独特的视觉设计在战场上脱颖而出。它将中国古典神话中齐天大圣的经典形象,与游戏内的现代美学风格进行了深度结合。标志性的金色毛发、可化为武器的金箍棒特效,以及服饰上精致的云纹与神话元素,共同塑造了一个极具战场辨识度的英雄形象。这种高辨识度本身,在战术层面就具有独特价值——它能





