游乐游手机版
首页/科技数码/文章详情

北大团队发布5D世界模型竞争进入白热化阶段

时间:2026-06-07 12:46
北大EvoPhys团队与摩尔线程联合发布5D世界模型EvoPhys-World,采用“一个基模,两种形态”架构,将感知、预测、决策与行动压缩至同一隐空间,实现知行互训的螺旋上升。该模型以人本主义定义动作空间,并依赖摩尔线程全功能GPU同步完成渲染与训练,在物理因果推理路线上走出超越学界与英伟达的激进一步。

2026年6月5日,北大EvoPhys团队与摩尔线程联合发布了EvoPhys-World。一个试图让机器人学会“想象”的5D世界模型,在这一天正式亮相。

就在四天前,英伟达刚刚发布了他们的世界模型Cosmos 3;前一天,斯坦福教授李飞飞发表论文,为“世界模型”这个被严重滥用的概念画出了权威的“三分法”地图。学界、产业界、算力巨头在同一时间窗口亮牌,这已经说明,当前AI新主流路线的竞争,进入了白热化阶段。

这场竞争的核心,其实可以用一个极为简单的动作来检验:

你让机器人把桌上的杯子移到左边。

第一种做法,它看到杯子,识别指令,伸手抓取,平移放下。整个过程像条件反射,不会想。这是VLA时代,视觉语言动作模型,眼睛和手脚直接连线,中间没有脑子。

第二种做法,它看到杯子,脑子里展开几张图。图一,轻轻推,杯子滑到左边。图二,用力推,杯子翻倒,水洒出来。图三,没碰到,杯子不动。它剪掉图二和图三,选择图一。这是世界模型,4D版,三维空间加时间。它能预测下一秒会发生什么,就像一个能观看物理规则电影的观众,但它仍然只是一个观众。

第三种做法,还是这几张图,但它进一步想。如果桌面有水渍,图一的滑动距离会不会改变。如果杯子是空的和满的,翻倒的阈值有何不同。如果推的时候手指碰了一下杯沿,杯子会不会转。它同时推演多条世界线,并在分叉中选择。这是世界模型,5D版,在时间和空间之上,再加一维动作与因果。它不是在预测电影,而是在导演剧本——它在行动前,快速做完了一场关于“后果”的短梦。

这不是让机器人的眼睛升级,而是给它造了一个脑子。一个是学会“看”,一个是学会“想”。

一、EvoPhys的底牌:5D世界模型与“一个基模,两种形态”

EvoPhys-World不是一个由多个独立模块拼凑起来的“缝合怪”。它是一个统一的基础模型,将感知、记忆、预测、决策、行动全部压缩进了同一个隐空间。

在这个隐空间里,它呈现出两种形态。

第一种叫World Engine,即“世界引擎”。你给它一个动作,比如“推”,它就能在脑子里模拟出这个世界接下来会变成什么样——杯子会滑多远、会不会倒、水会不会洒。这是它的“想象”能力,所谓“万物可孪生,物理可交互”。

第二种叫World Policy,即“世界策略”。你给它一个目标,比如“让杯子停在这里”,它就能倒推出实现这个目标需要的一系列动作——手应该伸多快、用多大的力、角度怎么调整。这是它的“行动”能力,所谓“世界可预演,万物可操控”。

它们不是割裂的。World Policy执行后产生的结果,会反馈给World Engine,让它的“想象”更精准;更精准的“想象”又能生成更好的“行动”。这就是“自进化”的核心——它不是让机器人学会“做动作”,而是让它学会“做实验”。先在大脑里做一万次实验,再挑出最优的那个方案去执行。

这种设计有一个深层的哲学基础:动作空间的设计。英伟达Cosmos 3是机器人中心主义的,它的动作被定义为机械臂的关节角度、夹爪的位置。而EvoPhys采用人本主义路线:它不教机器人“二指夹爪怎么动”,而是先教模型学“人的五指怎么捏杯子、怎么拧瓶盖”。

但人本主义不只是路线的选择,它延伸出一套更完整的工程标准——“三位一体”。这套标准认为,人类的数据采集设备、机器人本体、以及人类远程操控机器人的交互设备,必须共享同一个数据接口。人类戴着设备去推杯子时,眼睛看到的画面、头部转动的姿态、手指的骨骼点与用力大小,都遵循同一套格式。这套格式被机器人直接读取,也被远程操控的人类原样接收。这样一来,人类采集的交互数据可以直接用于训练,学到的行为可以直接转移到机器人上,而人类在远程操控时也不会有任何感知上的错位。

这意味着,它理解的是任务本身,而不是被特定的硬件形态所绑定。在机器人形态尚未收敛的今天,人,才是那具最通用的本体。

说到“知”与“行”的关系,World Engine承担的就是“知”的角色——它知道推杯子后世界会如何变化;World Policy承担的是“行”的角色——它知道为实现目标该如何出手。据接近该团队的人士透露,他们将两者的闭环概括为“知行合一”:不是先仿真再决策的“先知后行”,而是知行互训、螺旋上升。

这个螺旋能够高效运转,有一个关键的硬件前提。EvoPhys团队将模型训练在摩尔线程的MTT S5000千卡集群上。这款芯片最特殊的地方在于:它不是英伟达H100那样的“纯训练卡”,而是保留了完整的图形渲染管线。World Engine要实时“画出”杯子被推倒的画面,World Policy要在这幅画上计算下一步的动作——渲染与训练必须在一颗芯片上同时完成,不能分到两台机器上倒腾数据。英伟达的数据中心卡为了极致算力阉割了渲染模块,而摩尔线程的“全功能GPU”恰好满足了世界模型的这种刚需。

二、它为什么特别?——英伟达和李飞飞提供的地图

EvoPhys这张底牌之所以在这个时间点显得如此锋利,是因为它同时与两件大事形成了对照。

英伟达的“主流”路线。

就在EvoPhys发布的三天前,英伟达推出了世界模型Cosmos 3。黄仁勋将其定位为“Physical AI的ChatGPT时刻”,打出了三张牌:数万亿级别的多模态token、开放的开发者生态、以及与宇树科技等本体厂商的硬件协同。

但解剖它的数据构成,会发现一些有意思的细节。据英伟达公开的技术报告,在Cosmos 3 Reasoner的预训练阶段,约2200万样本中,OCR文字识别占42.9%,2D空间定位占16.5%,视觉问答占11.3%,而视频理解与推理仅占0.05%。

换句话说,英伟达的模型是一个极其渊博的“通才”,但在“如何推一个杯子”这门物理课上,它可能还是个初学者。它的“教材”里,掺杂了太多“语言”和“合成画面”。它可能学到的更多是“推”和“动”在统计上总是一起出现的语言关联,而不是“当施加的力大于最大静摩擦力时,物体才会发生位移”的物理因果。它强大,但它解决的是规模化问题,而不是“理解”问题。

与此同时,来自产业前线的真实需求数字,显得更为冷静。智元机器人合伙人姚卯青曾估算,GPT-5训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时,差距以万倍计。黄仁勋所说的“GPT时刻”,更准确地讲,或许是“基础设施的归因时刻”,而非“模型能力的落地时刻”。算力可以买到,但真实世界数据,必须是一天一天攒出来的。

李飞飞的“地图”。

同样是在这个时间窗口,学界给出了自己的框架。6月4日,斯坦福教授李飞飞发表论文,把被严重滥用的“世界模型”划出了三大功能类别:渲染器(生成逼真像素)、仿真器(生成符合物理规律的世界状态)、规划器(生成动作序列)。她特别强调,这三者中最被低估、但价值最深远的,是仿真器。她预言,最终这三类模型的边界将不断消融,走向一个“大一统世界模型”。

在这张地图上,英伟达和北大的位置被照见了。

Cosmos 3,偏重渲染与仿真,试图涵盖一切,但重心是“生成逼真的未来世界”。而EvoPhys,恰好精准地押注在李飞飞所说的那片“无人区”——价值最深、也最难啃的“仿真器”上。但更关键的是,EvoPhys悄悄画出了超越地图的路线。李飞飞的框架里,三者在分头演进后需要被“缝合”。而EvoPhys用“一个基模,两种形态”给出了更极致的答案:这三个功能从来不需要被缝合,它们从一开始就共享同一个隐空间,通过“螺旋自进化”互相喂养。

也就是说,当李飞飞还在为行业画出“如何走到终点”的地图时,EvoPhys已经拿出了“走到终点之后”的引擎。

三、从“是什么”到“为什么”

现在需要解释一个问题:为什么EvoPhys的这条“5D”路线,比Cosmos 3的“4D”路线,更接近对物理世界的“理解”?

我们可以借用围棋的变化图来理解所谓5D。

棋手在考虑下一步时,脑子里不是只算一个点,而是同时摆几张变化图。图一,我下这里,对手应那里;图二,我打入,对手反击,我是否做活。棋手在零点几秒内剪掉明显低胜率的分支,落子。世界模型推演物理后果,本质上在做同样的事——但棋盘从361个交叉点变成了无限的连续空间。一个动作下去,可能的后果有无限多种。模型要在零点几秒内剪掉那些违反物理规律的分支,只保留符合重力、摩擦力、碰撞体积的路径,再从中选最优。

这就是模式匹配与因果推断的区别。

模式匹配,是模型在数据里看到“推”这个动作,和“杯子动”这个画面,在统计上总是一起出现。于是它学会了这个规律。结果,当它被要求推一个铁块时,它依然会用同样的力气——因为它不理解“为什么”需要更用力。它只是记住了一对表象。

因果推断,是模型在无数真实交互中,学会了一条底层物理规律:“当施加的力大于最大静摩擦力时,物体才会发生位移”。它不是在匹配“推”和“动”的画面,而是在学习那个通用的物理方程。因此,无论是推杯子还是推铁块,它都能根据物体的质量和材质,计算出需要多大的力。它理解了原因和结果之间的必然联系。

更进一步。反事实推理问的是:“如果刚才我没推,杯子会不会因为桌面的震动而自己滑落?”这是在脑子里构建一个与现实不同的平行世界去推演。EvoPhys的5D引擎,本质上就是在工程化这种“反事实”能力。

教一个模型“为什么”,和教它“是什么”,完全是两个世界的事情。前者通向真正的智能,后者只是更高级的鹦鹉学舌。

结尾:两种出牌,定义权博弈

英伟达Cosmos 3走的是“主流”道路——20万亿token、开放生态、硬件协同,它解决的是“如何让更多机器人快速学会一个动作”的规模化问题。这是算力帝国的一次标准出牌。

EvoPhys的激进,在于它连李飞飞刚画出的地图都不满足。李飞飞说世界模型应该融合渲染器、仿真器、规划器三类功能。EvoPhys的回应是:这三者从来不需要被融合,它们从一开始就应该长在一起。“一个基模,两种形态”,不是一个愿景,而是已经跑通了的架构。李飞飞还在指出“前方应该有一座桥”,EvoPhys已经站到了桥的对岸,回头看地图说:“我们的引擎已经过了河。”

李飞飞画出“渲染器-仿真器-规划器”三分地图,其本质是学术正统的渐进主义:承认三者终将消融,但坚持必须经历“先分后合”的阶段,以“大一统”为终极静态终点。EvoPhys的架构更激进。它直接取消“三分法”的中间状态,将仿真器(World Engine)与规划器(World Policy)压进同一隐空间,让两者不是“边界消融”后的并列选项,而是相互喂养的动态闭环——Policy执行后的真实结果反馈给Engine,Engine生成更精准的状态预测再驱动Policy。这不是“先分后合”的渐进融合,而是知行合一的螺旋上升。

团队曾将AI的三层进阶概括为:LLM读万卷书,具身智能行万&里路,世界模型知行合一。前两者或知或行,各有偏重;而世界模型的终点,恰恰是知行互训的即时融合——没有静止的“大一统”,只有持续的螺旋。

而这场竞赛最意味深长的一幕,或许发生在硬件层面。摩尔线程为EvoPhys提供了一颗“会渲染”的GPU——这恰好是英伟达数据中心卡被阉割掉的能力。这是一个信号:在世界模型这个新战场上,中国芯片公司正在用“渲染+训练”的融合架构,试图定义一个新的标准。如果世界模型最终被证明需要一张“会画画”的芯片,英伟达可能不得不在下一代产品中恢复这项功能。

这不再是追逐,我们在一起做的,是路线定义权的博弈。

来源:https://www.163.com/dy/article/KUNSO6M9051481US.html
上一篇苹果公司推出首个iMessage AI助手Poke 支持邮件回复和提醒功能 下一篇车企跨界造车与人形机器人,强势入局新赛道
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南
科技数码 · 2026-06-07

2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南

国补政策一落地,身边不少朋友都开始在盘算换新机。学生党、年轻姑娘、还有那些天天拍短视频的创作者,成了这波购机主力。大家普遍头疼的是:手里预算就那么多,想要颜值、拍照、续航都兼顾,实在不容易。这次我们把vivo几款热门机型真机摸了个遍,结合实验室实测数据,从影像、做工、续航到补贴后到手价,一步步拆解。

SHEIN污染问题与环保管理框架全面解读
科技数码 · 2026-06-07

SHEIN污染问题与环保管理框架全面解读

SHEIN希音环保表现,关键要看这个框架 关注SHEIN希音的环保问题,其实是在探讨一个非常现实的话题:作为一家全球性的时尚零售商,它究竟如何应对服装行业长期面临的环境挑战——资源消耗、库存积压、碳排放、包装与纺织废弃物?如果能够把这些议题梳理清楚,那么对SHEIN希音的整体环保表现,心里也就大致有

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%
科技数码 · 2026-06-07

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%

苹果官方翻新商店再次迎来新品上架。6月5日,据MacRumors报道,美国官网的官方翻新专区悄然上线了三款2025年9月发布的智能手表——Apple Watch Series 11、Apple Watch Ultra 3以及Apple Watch SE 3。这是该系列机型首次通过翻新渠道销售,折扣幅

飞牛fnOS上线OPPO一加相册互联功能
科技数码 · 2026-06-07

飞牛fnOS上线OPPO一加相册互联功能

近日,飞牛 fnOS 发布重要更新:ARM 设备上的飞牛相册迎来大幅升级,其中最受关注的亮点是正式支持 OPPO 和一加设备互联。值得一提的是,此前 X86 平台已实现该功能,此次更新为 ARM 用户补齐了这项实用功能。 具体来说,OPPO 与飞牛之间的互联打通了四个关键场景,每项体验都非常实在:

小米米家植萃系列智能香氛机首发229元支持澎湃智联
科技数码 · 2026-06-07

小米米家植萃系列智能香氛机首发229元支持澎湃智联

米家智能香氛机植萃系列现已正式开售。大家最关心的价格方面,官方建议零售价为299元,而首发优惠价直接降至229元,性价比十足。 这款香氛机的核心亮点在于选用了奇华顿Orpur高端精油,天然植物萃取,气味清新自然,不刺鼻也不显廉价。它提供三种香型:风铃草、红茶、薰衣草,分别对应清甜、醇厚、舒缓的不同风