智源大会火爆超预期智源研究院定义世界模型四大路线_AI热点日报

智源大会火爆超预期智源研究院定义世界模型四大路线

类型：热点整理2026-06-29

2026智源大会明确世界模型四大分类：语言、像素、三维结构、视觉表征，核心定义是预测下一物理状态。智源提出潜空间融合路线，发布悟界·Physis与RoboBrainOrca两款模型，并指出数据匮乏、路线争议、算力消耗三大挑战。

世界模型详解：从核心概念到落地实践的全方位指南

2026年6月，智源大会掀起了全球AI领域对下一代人工智能——世界模型（World Model）的深度探讨。究竟什么是世界模型？它能带来哪些变革？不同技术路线各有哪些局限？本文基于智源研究院的最新研究成果，为你系统梳理、深入解读，呈现一份清晰、专业、完整的实用教程。

一、世界模型的本质是什么？——四大分类帮你厘清概念

在智源大会上，研究院明确了世界模型的分类标准，帮助行业从业者拨开迷雾、正本清源：

第一类：以语言为中心（VLM、VLA）——在文本空间中预测下一个词，学到的是“语言所描述的世界”，无法理解物理后果与因果关系。
第二类：以像素为中心（Sora、Seedance等）——在视觉空间中学习视频与图像，学到的是“像素所呈现的世界”。
第三类：以三维结构为中心（3D重建、World Labs Marble）——重建三维空间，但几何结构≠物理状态，二者有本质区别。
第四类：以视觉表征为中心（JEPA系列）——预测视觉表征的压缩表示，但视觉嵌入的演化并不等同于物理规律的演化。

这四大分类解释了为何视频公司、3D建模企业乃至游戏引擎开发商都能贴上“世界模型”的标签。边界模糊带来了巨大的想象空间，但同时也引发了大量的概念混淆与理解偏差。

二、世界模型的核心定义：预测下一物理状态

智源研究院院长王仲远指出：世界模型以“预测下一物理状态”为根本核心。“物理状态”涵盖语言、动作、时间、空间等多维度信息，是面向真实物理世界的下一代基座模型。

一个真正意义上的世界模型必须同时具备三大能力：

感知、理解与推理真实的物理状态和物理常识
覆盖全模态数据：包括文本、视频、深度信息、力觉数据、感知信号等
主动交互能力：能够支撑各类物理世界的下游应用场景

三、技术路线探索：潜空间融合——未来可行的方向

智源认为，未来可能出现第五种分类：以语言为中心与以视觉表征为中心的融合，即潜空间表征（Latent Space Representation）。同一个潜空间可以解码出不同的模态信息。

智源推出的悟界·Emu3.5模型正是将文字、图像、视频等多种模态原生压缩至统一的语义空间。王仲远表示：“统一的潜空间建模（全模态潜空间）很可能是世界模型真正的下一个技术路径。”

四、最新成果发布：两款世界模型正式亮相

悟界·Physis-v0.1 —— 全球首款通用世界基座模型

采用物理隐空间表征替代传统的像素级或帧级预测方式
实现跨场景通用的物理规律强化学习机制
搭载专属物理状态编码器，完成视频、深度RGB、3D点云、力触反馈等全模态信息的统一压缩
弥补了AI“不理解真实物理规则、推演可信度偏低、长程时序记忆缺失”的核心短板
可广泛应用于工业仿真、具身智能、物理模拟、科学研究等严肃场景

悟界·RoboBrain Orca —— 具身大脑

以下一物理状态预测为驱动核心
构建了“统一表征—统一建模—统一预测—统一交互”的完整闭环
从Next Token/Frame/Action Prediction升级为Next Physical State Prediction
融合大量Ego-centric交互数据，显著提升少样本学习与跨场景泛化能力
已成功支撑物流、酒店服务等真实环境中的长期自主作业任务

五、具身智能面临的考验：数据、路线、算力三大难题

1. 数据匮乏

真实世界数据分散在不同的信息孤岛中。虽然视频数据量巨大，但其有效性存在广泛争议——视频是否足以揭示物理因果关系？王仲远认为视频数据目前仍未被充分挖掘利用，但仅靠视频远远不够，必须持续采集真实世界的物理数据。智源正在尝试与高校、企业合作，同时设计更轻量级的数据采集设备以降低成本。

2. 技术路线之争：世界模型 vs VLA

VLA（Vision-Language-Action）在工业分拣等场景已有落地应用，但也暴露出泛化性差、缺乏物理常识、主动探索能力不足、部署延迟较高等明显局限。王仲远直言：“VLA是当下的解决方案，世界模型才是未来的方向。”

一个共性难题是：如何将物理规律有效教给模型？例如，一瓶水与一瓶咖啡从桌边跌落，其物理状态完全不同——人类可以凭借世界模型准确预测，但当前AI缺乏对时间、空间、物理规律的全模态常识理解。

3. 算力消耗

不同技术路线的算力需求差异较大。智源的悟界·Physis通过潜空间建模、极致压缩，以及不同任务使用不同Decoder的方式，有效降低了算力消耗。王仲远表示，LLM时期建成的算力基础设施大多可以复用（如训练框架、工具链等），但后续具体场景可能会催生新的算力需求。

六、市场启示：模糊的正确远比精确的混乱更有价值

回顾历史：互联网泡沫之后亚马逊、谷歌崛起；云计算泡沫之后AWS、Azure胜出；区块链泡沫之后核心价值在金融、供应链等领域得以保留。当前世界模型的“模糊”状态正在吸引大量资本涌入——过去18个月全球超100亿美元流入世界模型与机器人AI领域，国内截至2026年6月已披露超75亿元。

王仲远总结道：“技术创新需要先行，最终必须依靠具体场景的系统或产品来证明物理可验证、长时序推理、因果逻辑推断等技术目标能够真正落地。” 智源作为科研机构，承担原始创新的责任，也不排除未来发现当前认知存在偏差——这正是科研的魅力所在。

常见问题解答（FAQ）

Q1：世界模型和VLA模型究竟有何区别？

A： VLA（Vision-Language-Action）模型在特定任务（如工业分拣）中表现尚可，但其本质是“语言+视觉+动作”的简单拼接，缺乏对物理因果的深层理解，泛化能力较差。而世界模型以预测下一物理状态为核心，具备理解物理规律和跨场景推理的能力。当前业界共识是：VLA属于短期方案，世界模型才是长期演进方向。

Q2：为什么说视频数据的“有效性”存在争议？

A：视频数据虽然数量庞大，但仅记录了像素变化，无法直接揭示背后的物理原因（例如一个球掉落是由于重力作用）。部分专家认为视频只提供表面视觉信息，不能用于训练真正的物理理解；另一部分人则认为通过海量视频可以隐式学习物理规律。智源的观点是视频数据仍未被充分利用，但必须配合真实物理数据才能取得突破。

Q3：训练世界模型需要多少算力？

A：取决于所采用的技术路线。如果使用类似LLM的生成式方法，算力需求会非常巨大；如果采用潜空间压缩、隐空间学习等极致压缩方法，则可以大幅降低算力。智源的悟界·Physics通过潜空间建模，不同任务使用不同Decoder，减少了重复计算。此外，LLM时期积累的算力基础设施（如训练框架、集群）大多可以直接复用。

小贴士

★ 区分世界模型的四大类别：在阅读相关论文或评估产品时，首先判断它属于哪一类（语言/像素/3D结构/视觉表征），避免概念混淆。
★ 密切关注“潜空间”技术：智源认为全模态潜空间可能是世界模型的真正路径，这一方向值得持续跟踪研究。
★ 尽早布局数据采集：真实物理世界数据目前极度匮乏，有意向的团队应提前与高校、企业合作积累传感器数据、力觉数据等关键资源。
★ 切勿神化世界模型：当前任何标榜“世界模型”的产品都需要严格验证其物理预测能力，警惕概念炒作与过度营销。

结语

世界模型正处在“概念火热、技术初期”的关键发展阶段。从智源大会的清晰分类，到悟界系列产品的实际落地，我们能看到一条从“生成内容”走向“理解与预测物理世界”的可行路径。尽管数据、技术路线、算力等方面仍面临重重挑战，但正如历史反复证明的——一个模糊但足够宏大的愿景，往往能孕育出下一个时代的技术地基。对于从业者而言，准确理解技术本质、保持开放探索的心态，比急于贴上“世界模型”的标签更为重要。

来源：https://www.163.com/dy/article/KVG4UCNE0512MLBG.html

世界模型

延伸阅读

补充最近整理过的热点入口。