首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
罗福莉事件始末回顾与反思

罗福莉事件始末回顾与反思

热心网友
30
转载
2026-05-12

上次关于小米MiMo-V2-Pro的文章,结结实实地被“打脸”了。当时质疑其只公布有“水分”的SWE-bench Verified成绩,而回避了更硬核的SWE-bench Pro测试。结果,在V2.5-Pro的宣传中,小米直接把SWE-bench Pro的成绩放在了榜首,并在OpenRouter的模型描述中特意标注了其在ClawEval、GDPVal和SWE-bench Pro等基准测试中的顶级排名。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

从结果看,MiMo-V2.5-Pro的表现已与Claude Opus 4.6、GPT-5.4这些全球顶尖模型处于同一梯队。这种“打脸”其实是件好事,它意味着小米模型的进步速度远超预期——从V2-Pro到V2.5-Pro,中间只隔了一个月。更重要的是,这至少表明小米在态度上不再回避那些更严苛的测试集了。

那么,这次发布的V2.5和V2.5-Pro,究竟带来了哪些实质性的变化?

01 把Agent能力当产品中心

这次发布最值得关注的,并非榜单上的分数,而是小米将“Agent能力、长上下文、多模态、token效率、第三方框架适配”这些特性打包进同一代产品的思路。整个发布叙事非常“工程化”,反复强调在harness、Claude Code、OpenClaw等开发者工作流语境下的表现,性能展示反倒退居其次。

这很“小米”。MiMo-V2.5-Pro的核心定位是“长程Agent”,聊天只是附带功能。它在合适的harness环境下,能够持续完成超过1000次工具调用的超长任务。小米用三个复杂的Demo展示了这一点:

第一个是耗时4.3小时、进行672次工具调用,从零完整编写出一个SysY编译器。这个任务源自北京大学编译原理课程项目,通常需要计算机专业学生花费数周。模型最终在隐藏测试集上拿到了233/233的满分。整个过程结构化且具备自我纠错能力,例如在第512轮重构导致测试失败后,模型能自行诊断并恢复。

第二个Demo更夸张:耗时11.5小时,调用工具1868次,最终交付了一个拥有8192行代码、可用的视频编辑器桌面应用。

第三个则展示了在模拟电路EDA领域的潜力:接入ngspice仿真闭环,用大约1小时完成了一个研究生级别的FVF-LDO(翻转电压跟随器低压差稳压器)设计优化任务,使多个关键指标比初始设计提升了一个数量级。

简单来说,这些Demo的核心意图是展示模型“能不能把活干完”,而不仅仅是“聪不聪明”。V2.5-Pro展现出一种“harness awareness”的特性,能充分利用环境提供的能力,管理自身记忆,并规划上下文以实现最终目标。

此外,小米将多模态与Agent能力进行了整合。其原生视觉和音频理解能力,在Video-MME上达到87.7分,接近Gemini 3 Pro;在Claw-Eval多模态子集上与Claude Sonnet 4.6持平。同时,模型支持100万token的上下文,且Agent性能超越上一代。

与许多AI厂商将代码、多模态、长上下文能力分散在不同模型中的做法不同,MiMo-V2.5选择将“看、听、推理、调用工具”整合进一个统一模型,这比单纯追求单项高分更具实用意义。

另一个值得关注的卖点是“token效率”,即省钱。在ClawEval基准上,V2.5-Pro以约7万token/trajectory达到64%的Pass^3,相比其他顶级模型,在相近能力下节省了40%到60%的token消耗。这是因为Agent的真实成本主要来自长链条的工具调用和持续的上下文读写,而非单轮问答。谁在这方面更高效,谁就更容易被部署到生产环境。小米取消1M上下文的额外倍率定价,正是在降低长任务、复杂任务的试错门槛。

02 雷军要“卖算力”了?

伴随V2.5发布,小米完善了其于4月3日推出的Token Plan订阅体系。从Lite到Max共四档,新增夜间折扣、包年优惠等运营商式定价策略,并对老用户重置已用额度。这套打法清晰地传递出一个信号:小米正试图构建一个不依赖硬件的经常性收入模型。

当自建算力集群达到一定规模后,每增加一个付费用户的边际成本极低,但用户平均收入(ARPU)可通过差异化定价持续提升。这本质上是SaaS商业模式,毛利率远高于硬件。Token Plan适配Claude Code、OpenClaw等主流框架,也是在争夺AI原生应用的基础设施入口。更深一层看,如果未来小米汽车、IoT设备的第三方应用都基于MiMo开发,那么每一次API调用都将成为其“算力税收”的机会。

不过,Token Plan能否成功,一个关键变量在于小米能否兑现其开源承诺。从手机时代起,小米就走的是开源路线。开源看似会蚕食付费用户,但其商业逻辑在于:开源吸引长尾开发者,形成生态繁荣,贡献代码和反馈;闭源API服务则满足企业客户对稳定性、服务保障的需求。Meta的Llama系列已验证了这条路径。如果小米能走通,Token Plan将成为连接开发者、企业客户与小米生态的枢纽。

从产品定位看,V2.5与V2.5-Pro形成了清晰分层:前者主打“原生全模态+强Agent”,适合日常开发;后者专注“长程Agent”,应对复杂工程任务。这种分层基于场景适配,而非简单的性能高低。

对小米而言,Token Plan的意义远超一条新增收入线。它是小米从“硬件公司”向“AI公司”叙事转型中最关键的一块拼图。过去的“硬件+IoT”模式受限于销量与渗透率,而“AI能力+开发者生态+API变&现”的模式,其天花板在于技术实力与生态活跃度。如果MiMo能在开发者社区站稳脚跟,小米就有机会蜕变为一家“AI基础设施公司”,其商业价值将远超订阅收入本身。

03 MiMo-V2.5挑刺

既然乐于见到进步,也不妨再提几点值得观察的地方。

首先,在顶尖基准上仍有差距。目前SWE-bench Pro的最高分是Claude Mythos Preview的77.8%,MiMo-V2.5-Pro的57.2%尚有距离。在考验高阶推理的Humanity‘s Last Exam测试中,其48.0%的成绩也落后于GPT-5.4的58.7%。这表明在“高阶知识密度与跨学科抽象推理”方面,与最顶级模型相比还有提升空间。

更重要的是,目前仍缺乏可完全复现的硬证据。无论是满分编译器、11.5小时的视频编辑器,还是模拟电路优化,这些都是精心准备的“高光Demo”或“实验室Showcase”。作为一款宣称“即将开源”的模型,它缺少完全透明、可横向对比的公开标准评估。这些超长任务链中,无效调用、重复调用的比例是多少?成功率与成本如何?换一批任务是否稳定?“harness awareness”这一炫酷的概念,究竟是模型学会了管理运行时,还是仅仅因为任务设计或评测环境友好?这些细节的缺失,会削弱Demo的说服力。

此外,对第三方harness(如Claude Code、OpenClaw)的高度依赖,也潜藏风险。如果这些平台策略发生变化,小米模型可能需要被动调整以适应。

最后,开源时间表仍是关键。小米曾表示V2系列模型会在“技术足够稳定”时开源,但目前仅开源了V2 Flash。V2.5系列同样承诺“即将全球开源”,但“即将”是多久?这个问题的答案,直接决定了Token Plan是扎实的商业化起点,还是短暂的营销噱头。要让大企业放心投入生产,还需要更硬的工程披露,比如更完整的公开基准测试表,或更透明的失败案例分析。

总而言之,MiMo-V2.5系列的发布,是小米一次有力的技术正名。它用一个月时间,从被质疑“回避硬核测试”到敢于正面亮出SWE-bench Pro成绩并接近顶级水平,这本身就证明了其在AI领域的投入强度和团队执行力。Token Plan是一个良好的开端,但其最终能否吸引足够多的开发者,取决于开源承诺的兑现、服务稳定性的保障以及生态的真正繁荣。小米正站在一个关键的十字路口:向前,有机会成为真正的AI基础设施公司;向后,则可能只是又多了一个营销故事。时间会给出最终的答案。

来源:https://36kr.com/p/3780116224471811
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

罗福莉事件始末回顾与反思
业界动态
罗福莉事件始末回顾与反思

上次关于小米MiMo-V2-Pro的文章,结结实实地被“打脸”了。当时质疑其只公布有“水分”的SWE-bench Verified成绩,而回避了更硬核的SWE-bench Pro测试。结果,在V2 5-Pro的宣传中,小米直接把SWE-bench Pro的成绩放在了榜首,并在OpenRouter的模

热心网友
05.12
小米罗福莉谈Anthropic封杀OpenClaw:真正的出路并非更便宜Token!
业界动态
小米罗福莉谈Anthropic封杀OpenClaw:真正的出路并非更便宜Token!

小米罗福莉谈Anthropic封杀OpenClaw:真正的出路并非更便宜Token! 这几天,AI圈子被一则消息震动了:Anthropic突然出手,切断了像OpenClaw这类第三方框架通过Claude订阅服务的调用通道。这一刀下去,可谓一石激起千层浪。 那么,Anthropic为何如此果断?官方给

热心网友
04.14
罗福莉:各位醒醒吧,该结束token虚假狂欢了
科技数码
罗福莉:各位醒醒吧,该结束token虚假狂欢了

作者 | 董道力邮箱 | dongdaoli@pingwest com这两天,所谓“Anthropic封禁OpenClaw”的报道铺天盖地,但事实上Anthropic 是停止了OpenClaw这

热心网友
04.07
小米罗福莉:OpenClaw 是 Agent 框架的颠覆性事件,开源特性拉高国内开源模型上限
AI
小米罗福莉:OpenClaw 是 Agent 框架的颠覆性事件,开源特性拉高国内开源模型上限

小米罗福莉:OpenClaw 是 Agent 框架的颠覆性事件,开源特性拉高国内开源模型上限 3月27日,2026中关村论坛年会的《OpenClaw与AI开源圆桌会议》在京举行。会上,小米集团MiMo负责人罗福莉对近期大热的OpenClaw发表了自己的看法。 谈及OpenClaw,罗福莉的评价非常直

热心网友
03.31
未来12个月AI大模型趋势:杨植麟、罗福莉等行业洞察
科技数码
未来12个月AI大模型趋势:杨植麟、罗福莉等行业洞察

人工智能(AI)无疑是当下最能提起人们兴趣的话题之一,当AI圈的明星人物齐聚一堂,便自然而然成为聚光灯的焦点。2026年中关村论坛年会一场AI主题论坛上,座无虚席,甚至会场边上都挤满了站着的听众。舞

热心网友
03.29

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

空调行业困境即将迎来转机
业界动态
空调行业困境即将迎来转机

先别慌,也别急。今年以来的空调市场,竞争确实激烈,走势也充满动荡与不确定性,内卷成了常态。但对于一部分空调企业而言,眼下的煎熬不会持续太久,好日子其实已经不远了。 最近,不止一位空调企业的营销负责人坦言:“现在一线市场上,我们根本顾不上核算成本。只要有订单、能出货,就想尽一切办法去抢。”进入2026

热心网友
05.12
星神纪元角色转职攻略与职业进阶指南
游戏攻略
星神纪元角色转职攻略与职业进阶指南

在《星神纪元》的宏大世界中,角色的成长路径充满了策略与选择。转职,作为游戏进程中的关键转折点,不仅是角色实力的质变,更是玩法深度与战斗体验的全面升级。精准掌握转职的奥秘,将彻底改变你的冒险旅程,开启专属的强者之路。 星神纪元角色转职攻略:条件、流程与核心技巧 当角色等级满足特定要求后,转职系统便会解

热心网友
05.12
三角洲行动S8不归之人任务通关攻略与技巧详解
游戏攻略
三角洲行动S8不归之人任务通关攻略与技巧详解

在热门战术射击游戏《三角洲行动》中,“S8不归之人”任务以其高难度和丰厚回报成为玩家们关注的焦点。想要高效通关并获取全部奖励,掌握一套系统性的攻略思路至关重要。本文将为你全方位解析该任务的通关技巧与核心策略。 三角洲行动S8不归之人任务通关全攻略 “S8不归之人”任务拥有独特的机制与高强度对抗。开局

热心网友
05.12
炉石传说团队协作成就攻略 梦幻组合高效通关指南
游戏攻略
炉石传说团队协作成就攻略 梦幻组合高效通关指南

炉石传说团队协作:梦幻协作成就攻略 “团队协作:梦幻协作”这个成就,目标很明确:用150张“团队协作”牌召唤出的白银之手新兵。但实际操作起来,你会发现它是个不折不扣的“马拉松”式累积成就,难度不小。 为什么说它难?即便你手握“虚灵任务”体系,进度依然缓慢。核心矛盾在于,你不仅需要场上有足够的格子来容

热心网友
05.12
OKX买币提币路径详解 新手必看划转与充值入口区别
web3.0
OKX买币提币路径详解 新手必看划转与充值入口区别

对于刚接触加密货币交易的新手而言,理解平台内不同资金路径是首要任务。本文以OKX为例,清晰区分了“买币”与“提币”的本质区别,并详细解释了“资金划转”与“链上充值”两个核心入口的功能与使用场景。掌握这些基础操作逻辑,能有效避免误操作,确保资产流转安全顺畅,是迈出Web3世界的第一步。

热心网友
05.12