首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
圆桌|世界模型的前世今生与终极猜想

圆桌|世界模型的前世今生与终极猜想

热心网友
90
转载
2026-02-12

至今,科技圈对“世界模型”仍未给出一个标准定义。但这不妨碍它成为当下最性感的叙事:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在VC眼中,它是验证商业闭环的终极沙盘;在具身智能赛道,它是让机器人学会“走一步看三步”的预判大脑;而在元宇宙的废墟之上,它被视为信息载体从2D视频向3D交互世界跃迁的最后一块拼图。

就在1月23日,据彭博社报道,李飞飞正在就其创办的初创公司 World Labs 进行新一轮融资洽谈,目标估值约为 50 亿美元。

在这个概念还未被祛魅的时刻,中关村早期投资论坛找到几位不同背景的先行者。他们不谈虚无的共识,只求在视角的碰撞中,厘清这波AI新浪潮的真实商业脉络。

由雷峰网总编辑林觉民主持的一场圆桌论坛上,英诺科创基金合伙人王晟、流形空间创始人武伟、VAST创始人宋亚宸以及千诀科技合伙人蒋屹舟齐聚一堂。这场对话并非为了寻求某种平庸的共识,而是旨在呈现出一场关于世界模型讨论。


圆桌论坛现场

以下是本次圆桌的深度对话实录:

林觉民:请各位做一下简单的自我介绍。


雷峰网总编辑林觉民

武伟: Manifold AI(流形空间),去年6月刚成立,专注世界模型,目前主攻具身大脑落地,用在机械和无人机上。

宋亚宸:VAST创始人,做AI 3D大模型,服务游戏、动画、影视这些需要"造世界"的场景。

蒋屹舟:千诀科技合伙人,今天本来是师兄(CEO)来,我们师兄弟三人一起创业,我临时顶包。我们做家居场景的通用机器人类脑大脑,用类脑技术做决策和感知。

一、 概念定义:从仿真到预测

林觉民:听说这场圆桌本来是要"干仗"的,主要是目前行业内对于“世界模型”尚未形成统一的定义,有人要做具身智能的世界模型,有人做数字空间的,Google Gemini3 又是一派。所以今天我们不凝聚共识,就各抒己见,百家争鸣。

王晟(英诺科创基金):

我们将世界模型视为特定领域内逼近“Ground Truth(地面真值)”的模拟系统。

它不一定要在物理上100%复刻真实世界,而是要定义一个“域(World)”,比如医疗、法律或具身智能领域。在这个域中,模型能够模拟出符合客观规律的反馈。以医疗为例,如果模型能准确模拟出病人服药后的生理指标变化,且无限接近真实结果,它就是该领域的优秀世界模型。其核心价值在于提供准确的反馈(Reward),强化AI的学习效率。


英诺科创基金创始人王晟

武伟(流形空间):

我们的定义包含两个关键词:模拟与交互。即“用模拟的方式实现泛化的交互”。

目前行业内主要有三个流派:1.仿真器派: 如英伟达,主要用于云端合成数据,辅助智能体训练;2.通用交互界面派: 如Google Gemini、World Labs,打造开放的可交互数字环境,偏向娱乐应用;3.具身大脑派(我们所选路线): 让机器人具备内生的推理和想象能力。不仅是模仿动作,而是通过大脑推演“如果我这样做,世界会发生什么变化”,从而指导实际操作。


流形空间创始人 武伟

林觉民:Manifold和蒋总都是做“大脑”的,我们现在是哪个路线,以及为什么要选择这样的路线?

武伟(流形空间):

准确说是foundation model 派 vs 内脑架构派。我们把世界模型当作机器人原生的 foundation model,建模物理空间移动和操作的内生认知,用一段式或两段式端到端实现;千诀则是模拟人脑分区,用多个小模型/skills组合来降低功耗。

这种差异纯粹是团队基因决定的——我们是晟总 PPT 里那批"CV 派+自动驾驶派",我 2015 年加入商汤干了十年,2024-2025 年在中国最早提出自动驾驶端到端和世界模型。这种背景让我们必须 all in 端到端和数据的 scaling,而不是走小模型拼接的路线。

宋亚宸(VAST):

李飞飞 World Labs 的 BP 里唯一提到的公司就是我们,我还发给晟总偷看了。她定义世界模型三大场景:3D 生成、XR 空间智能、机器人——前两个才是重点。

Luma(我们老同行,做 AI 3D 转去做世界模型)刚融了 9 亿美金,比李飞飞还多,估值 40 亿。这说明世界模型确实是 AI 终局,但分两层:一层是具身智能让机器人替代人类,这层很可怕——作为文科生,要是会写小说,未来就是恐怖片。

另一层更重要:劳动力被解放后,人最终只能卷创意本身。当 AI 3D 让人"造万物"、AI Coding 让人"定规则",每个人都能零门槛创造虚拟世界——重力可以不是 9.8,你可以飞、可以重写社会规则。这就是马良的神笔,人人为我、我为人人的"天堂"。

未来人的价值,就看你创造的世界里别人愿意花多少时间。AI 让人像神一样创造世界级体验,这才是世界大模型的终局意义。


VAST创始人宋亚宸

林觉民:您这就是想造个"言出法随"的东西?

宋亚宸(VAST):必然的!未来每个人心想事成、言出法随,就是马良的神笔。

林觉民:快过年了,这话太应景了,不过宋总确实站得高,不仅是李飞飞 BP 里唯一提到的公司,他自己也是 MiniMax 早期创始人,刚才直接把世界模型定义成了整个 AI 的终局。

蒋屹舟(千诀科技):

其实早年实验室看世界模型,核心在于"理解世界"而非预测——就像牛顿看苹果落地能推导出万有引力公式,或者AI只读文字就能画出世界地图,这是一种对物理规律的底层抽象。

后来李飞飞带火了"预测世界",我们起初觉得"又来吹牛了",这不就是十年前强化学习里用的"视频预测"换了个名字吗?但后来发现对机器人确实关键——没有理解就无法外推,比如叠大小不同的衣服,这种细微差别很难人工建模,必须让模型具备底层认知才能做预测。

我们走类脑路线(非端到端的小模型组合),因为机器人不像GPT可以"思考十分钟",人看到机器人在等待会很痛苦。所以世界模型对我们来说是"一步三算、一步十算",像CPU分支预测一样提前推演各种可能性分支(比如回家打扫时遇到不同情况该怎么走),现在主要用于决策环节,让机器人具备真正的实时反应能力。


千诀科技创始人蒋屹舟

林觉民:所以蒋总我们其实已经把世界模型用在现实生活中了是吗?

蒋屹舟:对,目前用的更多可能是决策环节,因为我们的决策是能够一步三算的。

林觉民:李飞飞吹牛不怕,只要能实现,这个东西还是一个很好的愿景。

二、 技术路线:端到端 VS 类脑架构

林觉民:世界模型路线五花八门,最后拼什么才能跑出来?

王晟(英诺科创基金):这个问题挺复杂的,世界模型现在更多是投资共识的"标签"——就像之前必须投"具身智能"一样,现在必须投"基于世界模型的具身智能",这样才好交流、好决策。但细节层面其实一团乱麻,每家定义都不同,我作为投资人可以接受任何听起来合理的定义。

真正决定胜负的只有一点:你能不能建立一套接近 ground truth 的验证/仿真系统,能源源不断产出高质量数据。 在 scaling law 的暴力美学下,数据是核心燃料,尤其在具身领域,corner case 数据直接决定机器人会不会像自动驾驶一样出事故。这套系统产出的数据必须够 scale、够真实(能给你准确的 reward),同时分布均衡(稠密和稀疏性平衡),才能训练出既不过拟合也不稀疏的模型——核心还是归到数据。

林觉民:武总是做“大脑”的,过去一个月发了两个大脑模型,都宣称自己是世界第一,想请武总聚焦具身大脑领域回答一下。

武伟(流形空间):

商业公司活路就两条:要么 Day 1 有健康现金流,要么烧钱但增长快、天花板高。世界模型显然属于后者,关键看三点:找对落地场景、增长够快、天花板够高。

我们选具身大脑作为第一个产品化方向。做个思维游戏:人从出生到 18 岁,眼睛大概收集 300 万 clips;掌握 2000 个工种,再攒 3 亿 clips。人类一辈子能收集的数据天花板约 10 亿 clips。 如果能用 10 亿 clips 训出世界模型,达到人的智能化上限——简单任务零样本泛化,复杂任务几十个样本学会——这就是世界模型的终极天花板,商业价值极高。

倒推回来,做世界模型公司怎么 survive?快速收集 10 亿高质量数据、找到能 pre-train 的架构、泛化到零样本/少样本的应用场景——这三件事做到,就能在具身大脑这个狭窄赛道里跑出来。

宋亚宸(VAST):

为什么今天大家都在谈论世界模型?并不是因为AI技术突然成熟了,也不是因为具身智能到了某个时间点。根本原因在于,人类的信息载体正在经历一场终极升维。

回顾人类历史,我们其实一直在做一件事:对“真实世界”进行压缩。

在文字诞生前的史前文明(如良渚文化),人类接触的是直接的、3D的大自然,那是“原文件”。后来为了便于传播,我们不得不将这些3D体验“压缩”——先是压缩成文字(龟壳刻字),再是图片,直到1889年我们发明了视频。视频本质上依然是对3D世界的一种“ZIP压缩包”。

当信息密度越低(如文字),传播越容易;当带宽和算力提升,我们才开始普及图片和视频。而到了AI时代,基础设施终于足以支撑我们解压这个“压缩包”,让我们重新回到3D和世界本身。

所以,世界模型不是新物种,而是信息载体的“复原”。我们终于有能力不再处理压缩后的视频,而是直接以3D原文件作为媒介。这才是世界模型出现的真正意义。

林觉民:这个相当于是对信息的利用效率?

宋亚宸:本质是传播成本决定载体形式——信息密度越低越易传播,所以龟壳时代只能刻字,互联网时代能传图文视频。而 3D 或世界本身,才是我们最终的信息载体。

蒋屹舟(千诀科技):

我们认为世界模型不局限于视觉——盲人操作物体靠的不是看,而是对物理因果的理解(知道动作会带来什么后果,进而影响下一步决策)。这种对因果关系的把握才是核心。

类脑路线采用非端到端架构,最大优势是不需要暴力堆数据。现在 VLA 很头疼的是必须靠机械臂疯狂采集或仿真训练,而我们认为可以用人类判断代替——比如抓取物体,不必让机械臂试成千上万次,直接让人判断"人会怎么抓",把这套理解喂给模型就够了。

另外,世界模型也不一定要理解整个自然世界,人类构建的抽象世界也算——语言就是人对世界的最根本抽象,LLM 已经证明了这一点。所以只要在任意层面具备对世界的理解和预测能力,就是世界模型。我们的工作会在各个模型里融入这种思路,不局限于单一技术路线。(雷峰网雷峰网雷峰网)

来源:https://www.163.com/dy/article/KLJ2677305118HA4.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02