圆桌｜世界模型的前世今生与终极猜想

首页/科技数码/文章详情

圆桌｜世界模型的前世今生与终极猜想

时间：2026-02-12 16:58

至今，科技圈对“世界模型”仍未给出一个标准定义。但这不妨碍它成为当下最性感的叙事：在VC眼中，它是验证商业闭环的终极沙盘；在具身智能赛道，它是让机器人学会“走一步看三步”的预判大脑；而在元宇宙的废墟

至今，科技圈对“世界模型”仍未给出一个标准定义。但这不妨碍它成为当下最性感的叙事：

在VC眼中，它是验证商业闭环的终极沙盘；在具身智能赛道，它是让机器人学会“走一步看三步”的预判大脑；而在元宇宙的废墟之上，它被视为信息载体从2D视频向3D交互世界跃迁的最后一块拼图。

就在1月23日，据彭博社报道，李飞飞正在就其创办的初创公司 World Labs 进行新一轮融资洽谈，目标估值约为 50 亿美元。

在这个概念还未被祛魅的时刻，中关村早期投资论坛找到几位不同背景的先行者。他们不谈虚无的共识，只求在视角的碰撞中，厘清这波AI新浪潮的真实商业脉络。

由雷峰网总编辑林觉民主持的一场圆桌论坛上，英诺科创基金合伙人王晟、流形空间创始人武伟、VAST创始人宋亚宸以及千诀科技合伙人蒋屹舟齐聚一堂。这场对话并非为了寻求某种平庸的共识，而是旨在呈现出一场关于世界模型讨论。

圆桌论坛现场

以下是本次圆桌的深度对话实录：

林觉民：请各位做一下简单的自我介绍。

雷峰网总编辑林觉民

武伟： Manifold AI（流形空间），去年6月刚成立，专注世界模型，目前主攻具身大脑落地，用在机械和无人机上。

宋亚宸：VAST创始人，做AI 3D大模型，服务游戏、动画、影视这些需要"造世界"的场景。

蒋屹舟：千诀科技合伙人，今天本来是师兄（CEO）来，我们师兄弟三人一起创业，我临时顶包。我们做家居场景的通用机器人类脑大脑，用类脑技术做决策和感知。

一、概念定义：从仿真到预测

林觉民：听说这场圆桌本来是要"干仗"的，主要是目前行业内对于“世界模型”尚未形成统一的定义，有人要做具身智能的世界模型，有人做数字空间的，Google Gemini3 又是一派。所以今天我们不凝聚共识，就各抒己见，百家争鸣。

王晟（英诺科创基金）：

我们将世界模型视为特定领域内逼近“Ground Truth（地面真值）”的模拟系统。

它不一定要在物理上100%复刻真实世界，而是要定义一个“域（World）”，比如医疗、法律或具身智能领域。在这个域中，模型能够模拟出符合客观规律的反馈。以医疗为例，如果模型能准确模拟出病人服药后的生理指标变化，且无限接近真实结果，它就是该领域的优秀世界模型。其核心价值在于提供准确的反馈（Reward），强化AI的学习效率。

英诺科创基金创始人王晟

武伟（流形空间）：

我们的定义包含两个关键词：模拟与交互。即“用模拟的方式实现泛化的交互”。

目前行业内主要有三个流派：1.仿真器派：如英伟达，主要用于云端合成数据，辅助智能体训练；2.通用交互界面派：如Google Gemini、World Labs，打造开放的可交互数字环境，偏向娱乐应用；3.具身大脑派（我们所选路线）：让机器人具备内生的推理和想象能力。不仅是模仿动作，而是通过大脑推演“如果我这样做，世界会发生什么变化”，从而指导实际操作。

流形空间创始人武伟

林觉民：Manifold和蒋总都是做“大脑”的，我们现在是哪个路线，以及为什么要选择这样的路线？

武伟（流形空间）：

准确说是foundation model 派 vs 内脑架构派。我们把世界模型当作机器人原生的 foundation model，建模物理空间移动和操作的内生认知，用一段式或两段式端到端实现；千诀则是模拟人脑分区，用多个小模型/skills组合来降低功耗。

这种差异纯粹是团队基因决定的——我们是晟总 PPT 里那批"CV 派+自动驾驶派"，我 2015 年加入商汤干了十年，2024-2025 年在中国最早提出自动驾驶端到端和世界模型。这种背景让我们必须 all in 端到端和数据的 scaling，而不是走小模型拼接的路线。

宋亚宸（VAST）：

李飞飞 World Labs 的 BP 里唯一提到的公司就是我们，我还发给晟总偷看了。她定义世界模型三大场景：3D 生成、XR 空间智能、机器人——前两个才是重点。

Luma（我们老同行，做 AI 3D 转去做世界模型）刚融了 9 亿美金，比李飞飞还多，估值 40 亿。这说明世界模型确实是 AI 终局，但分两层：一层是具身智能让机器人替代人类，这层很可怕——作为文科生，要是会写小说，未来就是恐怖片。

另一层更重要：劳动力被解放后，人最终只能卷创意本身。当 AI 3D 让人"造万物"、AI Coding 让人"定规则"，每个人都能零门槛创造虚拟世界——重力可以不是 9.8，你可以飞、可以重写社会规则。这就是马良的神笔，人人为我、我为人人的"天堂"。

未来人的价值，就看你创造的世界里别人愿意花多少时间。AI 让人像神一样创造世界级体验，这才是世界大模型的终局意义。

VAST创始人宋亚宸

林觉民：您这就是想造个"言出法随"的东西？

宋亚宸（VAST）：必然的！未来每个人心想事成、言出法随，就是马良的神笔。

林觉民：快过年了，这话太应景了，不过宋总确实站得高，不仅是李飞飞 BP 里唯一提到的公司，他自己也是 MiniMax 早期创始人，刚才直接把世界模型定义成了整个 AI 的终局。

蒋屹舟（千诀科技）：

其实早年实验室看世界模型，核心在于"理解世界"而非预测——就像牛顿看苹果落地能推导出万有引力公式，或者AI只读文字就能画出世界地图，这是一种对物理规律的底层抽象。

后来李飞飞带火了"预测世界"，我们起初觉得"又来吹牛了"，这不就是十年前强化学习里用的"视频预测"换了个名字吗？但后来发现对机器人确实关键——没有理解就无法外推，比如叠大小不同的衣服，这种细微差别很难人工建模，必须让模型具备底层认知才能做预测。

我们走类脑路线（非端到端的小模型组合），因为机器人不像GPT可以"思考十分钟"，人看到机器人在等待会很痛苦。所以世界模型对我们来说是"一步三算、一步十算"，像CPU分支预测一样提前推演各种可能性分支（比如回家打扫时遇到不同情况该怎么走），现在主要用于决策环节，让机器人具备真正的实时反应能力。

千诀科技创始人蒋屹舟

林觉民：所以蒋总我们其实已经把世界模型用在现实生活中了是吗？

蒋屹舟：对，目前用的更多可能是决策环节，因为我们的决策是能够一步三算的。

林觉民：李飞飞吹牛不怕，只要能实现，这个东西还是一个很好的愿景。

二、技术路线：端到端 VS 类脑架构

林觉民：世界模型路线五花八门，最后拼什么才能跑出来？

王晟（英诺科创基金）：这个问题挺复杂的，世界模型现在更多是投资共识的"标签"——就像之前必须投"具身智能"一样，现在必须投"基于世界模型的具身智能"，这样才好交流、好决策。但细节层面其实一团乱麻，每家定义都不同，我作为投资人可以接受任何听起来合理的定义。

真正决定胜负的只有一点：你能不能建立一套接近 ground truth 的验证/仿真系统，能源源不断产出高质量数据。在 scaling law 的暴力美学下，数据是核心燃料，尤其在具身领域，corner case 数据直接决定机器人会不会像自动驾驶一样出事故。这套系统产出的数据必须够 scale、够真实（能给你准确的 reward），同时分布均衡（稠密和稀疏性平衡），才能训练出既不过拟合也不稀疏的模型——核心还是归到数据。

林觉民：武总是做“大脑”的，过去一个月发了两个大脑模型，都宣称自己是世界第一，想请武总聚焦具身大脑领域回答一下。

武伟（流形空间）：

商业公司活路就两条：要么 Day 1 有健康现金流，要么烧钱但增长快、天花板高。世界模型显然属于后者，关键看三点：找对落地场景、增长够快、天花板够高。

我们选具身大脑作为第一个产品化方向。做个思维游戏：人从出生到 18 岁，眼睛大概收集 300 万 clips；掌握 2000 个工种，再攒 3 亿 clips。人类一辈子能收集的数据天花板约 10 亿 clips。如果能用 10 亿 clips 训出世界模型，达到人的智能化上限——简单任务零样本泛化，复杂任务几十个样本学会——这就是世界模型的终极天花板，商业价值极高。

倒推回来，做世界模型公司怎么 survive？快速收集 10 亿高质量数据、找到能 pre-train 的架构、泛化到零样本/少样本的应用场景——这三件事做到，就能在具身大脑这个狭窄赛道里跑出来。

宋亚宸（VAST）：

为什么今天大家都在谈论世界模型？并不是因为AI技术突然成熟了，也不是因为具身智能到了某个时间点。根本原因在于，人类的信息载体正在经历一场终极升维。

回顾人类历史，我们其实一直在做一件事：对“真实世界”进行压缩。

在文字诞生前的史前文明（如良渚文化），人类接触的是直接的、3D的大自然，那是“原文件”。后来为了便于传播，我们不得不将这些3D体验“压缩”——先是压缩成文字（龟壳刻字），再是图片，直到1889年我们发明了视频。视频本质上依然是对3D世界的一种“ZIP压缩包”。

当信息密度越低（如文字），传播越容易；当带宽和算力提升，我们才开始普及图片和视频。而到了AI时代，基础设施终于足以支撑我们解压这个“压缩包”，让我们重新回到3D和世界本身。

所以，世界模型不是新物种，而是信息载体的“复原”。我们终于有能力不再处理压缩后的视频，而是直接以3D原文件作为媒介。这才是世界模型出现的真正意义。

林觉民：这个相当于是对信息的利用效率？

宋亚宸：本质是传播成本决定载体形式——信息密度越低越易传播，所以龟壳时代只能刻字，互联网时代能传图文视频。而 3D 或世界本身，才是我们最终的信息载体。

蒋屹舟（千诀科技）：

我们认为世界模型不局限于视觉——盲人操作物体靠的不是看，而是对物理因果的理解（知道动作会带来什么后果，进而影响下一步决策）。这种对因果关系的把握才是核心。

类脑路线采用非端到端架构，最大优势是不需要暴力堆数据。现在 VLA 很头疼的是必须靠机械臂疯狂采集或仿真训练，而我们认为可以用人类判断代替——比如抓取物体，不必让机械臂试成千上万次，直接让人判断"人会怎么抓"，把这套理解喂给模型就够了。

另外，世界模型也不一定要理解整个自然世界，人类构建的抽象世界也算——语言就是人对世界的最根本抽象，LLM 已经证明了这一点。所以只要在任意层面具备对世界的理解和预测能力，就是世界模型。我们的工作会在各个模型里融入这种思路，不局限于单一技术路线。（雷峰网雷峰网雷峰网）

来源：https://www.163.com/dy/article/KLJ2677305118HA4.html

林觉民机器人李飞飞真实世界世界模型终局猜想

上一篇裕太微车规级SerDes芯片启动量产，加速国产替代 下一篇高德发布ABot系列基座模型：全球首款具身操作与导航双突破

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

圆桌｜世界模型的前世今生与终极猜想

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

圆桌｜世界模型的前世今生与终极猜想

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进