游乐游手机版
首页/科技数码/文章详情

北京人形WoW模型突破Sora2局限:具身世界aha时刻解析

时间:2025-12-03 22:09
近年来机器人的“体能”正在以肉眼可见的速度进步——后空翻、跑酷、马拉松,这些曾经只属于人类的运动能力,如今机器人也能轻松完成。然而,让机器人完成一个后空翻很难,但让它“理解”面前的水杯为什么倒下后水

近年来,机器人的"体能"正以惊人的速度进化——后空翻、跑酷、马拉松,这些曾被视为人类专属的运动能力,如今对机器人来说已不在话下。然而,让机器人完成一个后空翻或许不难,但要让它"理解"为什么水杯倒下后液体会洒出来,可能更具挑战性。

继DeepSeek开源大模型推动行业发展之后,北京人形机器人创新中心再次突破技术边界,开源了全新的世界模型架构,提出让机器人真正"看见、理解并作用于世界"的具身世界模型——WoW(World-Omniscient World Model),帮助具身智能机器人快速学习掌握各项技能,助力行业打造"最好用"的机器人。

该模型一经发布,便受到学术界与产业界的广泛关注。Huggingface的最新留言称赞道:出色工作,并重点推荐希望上传更多技术内容。斯坦福具身智能专家、PI创始人、清华合作论文也引用了WoW具身世界模型技术报告。这意味着北京人形机器人创新中心在具身世界模型领域已走在世界前列。

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

这不仅仅是一次视觉模型的升级,更是一个融合视觉、动作、物理感知与推理的统一世界生成框架。它让AI不再只是"看视频"或"生成图像",而是能通过交互学习世界的物理规律,并在真实环境中自主操作。如果说GPT系列让机器"读懂语言",Sora系列是在"看世界",那么WoW就是让机器人"理解物理世界",并且赋予算法触摸世界的双手。

创新的技术架构、完全开源的策略、完整的工具支持,使得WoW有望成为世界模型领域的"DeepSeek"。

相较于Sora 2,WoW具身世界模型在模拟机器人操作的时空一致性、物理推理能力表现更为出色。

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成依序抓取火方块、柔性方块、水方块

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成打开乔布斯自传书

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 Sora 2生成依序抓取火方块、柔性方块、水方块

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 Sora 2生成打开乔布斯自传书

创新的技术架构体系,重新定义世界模型能力边界

北京人形提出了一个全新的多模态大模型框架,将世界生成(World Generation)、动作预测(Action Inference)、视觉理解(Vision-Language Models, VLM)和自我反思(Refiner Agent)融合为一个统一系统,成功解决传统架构在物理一致性、因果推理和跨本体跨场景跨动作泛化方面的局限。

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW是一个融合了感知、预测、判断、反思与行动五个环节的具身世界模型。它从真实的机器人交互数据中学习,能在已知与未知场景中生成高质量、物理一致的机器人视频,最终让想象中的动作真正落地于现实执行。

WoW具身世界模型系统由四个核心组件构成:

DiT世界生成基座模型(Diffusion Transformer)——具备真实世界推理与生成能力的[物理引擎+想象系统]

WoW具身世界模型能够根据环境状态与历史帧,预测未来场景、推演物理演化、还原动态因果链。在此基础上,北京人形从800万条海量机器人与物理世界交互轨迹,并自建数据优化精炼管线,筛选出200万条高质量的训练集,训练了多个版本的世界模型,从1.3B → 2B → 7B → 14B参数的全系列扩展,并验证了随着模型规模提升,物理一致性与生成稳定性以及泛化性呈现显著上升趋势。

域内(In-domain)泛化生成:

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成打开洗碗机

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成打开水龙头放下苹果

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成机械臂生成依序按下红色按钮,收拾餐具,按下绿色开关(长程任务)泛化生成:

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成具身天工2.0把橙子放进盘子里

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成从梵高的向日葵画里拿出向日葵

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 WoW生成机械臂夹爪工作轨迹流

SOPHIA自反思范式(Solver–Critic–Refiner)——业界首次提出SOPHIA框架,让世界模型"自己教自己"。

WoW具身世界模型遵循SOPHIA范式——将大语言模型(LLM)与扩散Transformer(DiT)结合起来,在语言引导下生成物理上合理的未来,通过"生成预测(predict)—批评(critic)—修正(refine)"的迭代循环机制,将"想象(imagination)"与"推理(reasoning)"统一为具身智能的基本组成部分,正类似于人类智能"想象-验证-修正-再想象"的核心特征,让模型越看越准,越生成越真实。

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 左侧展示了动态评价模型(Dynamic Critic Model Team),它通过真实与合成视频的标注训练,学会判断生成画面的物理合理性。右侧展示Refiner Agent(优化智能体),根据评价模型的反馈不断改写提示词、重新生成视频,形成一个"生成—批评—改进"的闭环优化过程。

FM-IDM逆动力学模型(Flow-Mask Inverse Dynamics)——从视频到动作,给算法触摸世界的双手

WoW具身世界模型实现[视频生成]和[机器人动作]闭环,通过给定连续两帧预测视频,FM-IDM能够计算机器人末端执行器的动作变化量,从视觉"想象"中反推出真实可执行的运动指令,让模型实现从视频到动作的闭环,标志着真正实现从生成到执行的跨越。

Sora 2 之后,北京人形WoW具身世界模型带来aha时刻

图 给定连续两帧预测视频,FM-IDM(Flow-Mask Inverse Dynamics Model)能够计算出机器人末端执行器的动作变化量(ΔAction),从视觉"想象"中反推出真实可执行的运动指令,让模型实现从视频到动作的闭环。

WoWBench世界基准——全球首个针对具身世界模型的综合基准,让"想象力"第一次有了可量化的科学标准

从3万到200万条交互轨迹,WoW的性能几乎呈幂率增长——证明真实交互数据比纯视觉数据更能塑造"世界理解力"。

来源:https://www.leiphone.com/category/ai/eMkqVUACc4gGtNzh.html
上一篇我国深潜任务收官:奋斗者与蛟龙号北极揭秘 下一篇OpenAI获1.5万亿美元投资:揭秘内部核心圈的合作战略
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
罗技M850L首款掌垫鼠标开售到手价280.72元
科技数码 · 2026-06-01

罗技M850L首款掌垫鼠标开售到手价280.72元

罗技M850L鼠标正式发售,作为品牌首款配备掌垫的型号,售价280 72元。采用SmartWheel滚轮技术,支持精准逐行滑动及快速翻页,按键声音轻柔。兼容Windows、macOS等多种操作系统,蓝牙连接稳定,借助Easy-Switch功能可一键切换最多三台设备,显著提升多任务处理效率,为长时间使用提供舒适体验。

华硕TUF Gaming RTX 5080 BTF版尺寸与原版一致
科技数码 · 2026-06-01

华硕TUF Gaming RTX 5080 BTF版尺寸与原版一致

华硕近日推出新款TUFGamingRTX5080BTF版显卡,保留原有12V-2×6接口,新增可拆卸式1000瓦功率GC-HPWR供电适配器。尺寸与原版一致,为348×146×72毫米,核心频率保持不变,标准与超频频率分别为2640 2617兆赫和2730 2700兆赫,用户可以根据主板支持情况自由选择。

舒淇亮相小米交付现场,无驾照仍凭气质圈粉
科技数码 · 2026-06-01

舒淇亮相小米交付现场,无驾照仍凭气质圈粉

舒淇出席小米汽车交付仪式,虽无驾照却成焦点。她以自然松弛的状态与车主亲切互动,自曝从未考驾照引发阵阵欢笑。面对五十多岁年龄,她大方分享保养心得,尽显真实魅力与从容气质。

vivo首款头戴降噪耳机仅重238g
科技数码 · 2026-06-01

vivo首款头戴降噪耳机仅重238g

vivo发布首款头戴式降噪耳机,整机仅238克,降噪深度达58dB,支持跨生态三设备无缝连接。关闭降噪续航75小时,充电10分钟可听9小时,售价499元。

华硕破晓7 Pro搭载锐龙AI7与2.5K高刷屏
科技数码 · 2026-06-01

华硕破晓7 Pro搭载锐龙AI7与2.5K高刷屏

华硕破晓7Pro于5月31日开启预约,提供14英寸和16英寸版本,最高搭载锐龙AI7445处理器,配备2 5K144Hz屏,起售价7999元。采用4nm工艺,6核12线程,Radeon840M集显,最高32GB内存和2TBSSD,金属机身支持180度开合,接口齐全,16英寸版带全尺寸键盘和指纹识别,70Whr电池支持65W快充。