DeepMind CEO定义世界模型标准：能理解并创造物理世界

时间：2026-06-23 14:25

8月13日，谷歌DeepMind首席执行官德米斯·哈萨比斯受邀参加播客节目《Release Notes》，深入探讨了公司最新技术进展与未来战略。其中，世界模型Genie 3的重大突破成为讨论焦点，但其背后蕴藏的AI发展方向更值得关注。从AlphaGo攻克围棋难题，到Deep Think摘得国际数学

8月13日，谷歌DeepMind首席执行官德米斯·哈萨比斯受邀参加播客节目《Release Notes》，深入探讨了公司最新技术进展与未来战略。其中，世界模型Genie 3的重大突破成为讨论焦点，但其背后蕴藏的AI发展方向更值得关注。从AlphaGo攻克围棋难题，到Deep Think摘得国际数学奥林匹克金牌；从Genie 3打造逼真虚拟世界，到未来有望诞生的“全能模型”，DeepMind的一系列成果令人瞩目。然而，哈萨比斯坦率指出，这些AI系统在部分领域的能力甚至不及普通人类——例如，它们在象棋对弈中偶尔会走出违规棋步。这种“参差型智能”现象，某种程度上揭示了当前人工智能发展的核心矛盾。在哈萨比斯看来，“思考型模型”是实现通用人工智能（AGI）的关键路径；而DeepMind的最终愿景，是打造一个集语言理解、多媒体处理、物理推理与内容生成于一体的全能模型。该模型的根基，是持续演进的世界模型技术。以下为本次对话的详细实录。

思考型模型：从游戏AI到通用人工智能的演进之路

基尔帕特里克：今天做客我们节目的是谷歌DeepMind首席执行官德米斯·哈萨比斯。德米斯，欢迎你，感谢你能来。哈萨比斯：你好，非常荣幸能参与这次对话。基尔帕特里克：近期DeepMind密集发布了多项成果，包括Deep Think、IMO金牌、Genie 3等，感觉在短短一两个月内集中涌现，快到让人应接不暇。你对此有何看法？哈萨比斯：过去几年我们一直在蓄力，加快了研发与发布的节奏，如今终于看到了成效。我认为当前是行业极为振奋人心的阶段。几乎每天都有新进展问世，我们团队几乎天天都有新东西发布，即便内部要跟上速度都颇具挑战，更不用说整个领域了。看到这些成果，我感到非常自豪。基尔帕特里克：你怎么看待Deep Think？让我尤其兴奋的是，该模型的一个版本已经向Gemini应用的订阅用户开放，让大家能够真正上手体验。这种一边推动技术研发、一边让用户直接使用的结合，非常美妙。哈萨比斯：“思考型”模型的出现，可以看作是我们早期游戏AI工作的延续，例如AlphaGo和AlphaZero。从DeepMind创立至今，我们一直在研发“基于智能体的系统”。早期，系统能完成一个完整任务，通常是把一款游戏玩到极致，因为游戏有明确的目标。当时模型是单一领域的游戏模型，而如今，我们拥有功能强大的多模态模型，既能处理语言，也能理解和整合其他信息。在游戏AI中，需要在模型之上叠加“思考”或“规划”的能力。这是迈向AGI的必经之路。当模型具备思考能力，就能进一步延展到“深度思考”，甚至实现并行规划——同时推演多条思路，然后择优决策，进入下一步行动。这一方向还有广阔的创新空间，但即便在“思考”环节，进展也非常迅速。无论是数学、编程、科学问题还是游戏，这类系统都必须具备思考与规划能力，而不是简单给出脑海中闪现的第一个答案。思考型系统的核心价值，就是不断修正和优化自身的推理过程。基尔帕特里克：我之前观看了《The Thinking Game》那个视频，发现DeepMind团队很早就踏上了这条路，而且与当年用强化学习解决问题的过程有很多相似之处。比如AlphaFold曾面临的数据瓶颈，和如今编程等领域缺乏专家数据的困境很像。你有似曾相识的感觉吗？哈萨比斯：确实如此。我们很早就坚定选择了强化学习，这是2010年做出的首批关键决策之一，与深度学习并列。当时的Atari项目，是第一个真正完成有趣任务的深度强化学习系统——它直接从屏幕像素中学习玩上世纪70年代的Atari游戏，并且表现超过任何人类玩家。更重要的是，它能“开箱即用”地玩任何Atari游戏，这种通用性证明了新技术具备规模化并发挥实际价值的潜力。有趣的是，系统在某些方面表现惊艳，但在一些相对简单的任务上仍有不足，比如高中数学、基础逻辑，或某些特殊设计的小游戏。它们体现出一种“参差型智能”——在某些维度上表现惊人，在另一些方面则很容易暴露弱点。

从机器人到通用助理，Genie 3的多维度潜力

基尔帕特里克：许多人看了Genie 3的演示后感到震撼，有人甚至说“这是模拟理论的证据”。它确实与用游戏推动强化学习发展有关。回顾Genie 3，结果是否符合预期？提升模型玩游戏的能力，未必必然带来世界模型。哈萨比斯：Genie 3融合了多条研究路径。我们一直把棋类或电子游戏作为挑战环境，不仅用来推动算法进步，也用来合成数据。我们构建了极为逼真的虚拟环境，用于训练系统理解物理世界。我们想要构建的世界模型，不仅要理解物理结构、材料特性、液体流动，还要理解生物和人类的行为，因为AGI必须理解物理世界，才能在其中运作。这对机器人至关重要，也对通用助理项目如Project Astra（Gemini Live）不可或缺。验证世界模型的一种方法，就是让它生成与现实一致的虚拟世界，比如打开水龙头会有水流出，镜子里会映出自己等。Genie 3之所以惊人，就在于它生成的世界具有一致性：你转身离开再回头，世界保持原样。这说明底层物理理解相当出色。基尔帕特里克：你认为用户将如何使用Genie？目标是仅将它作为改进Gemini和其他机器人项目的工具，还是本身有更多用途？哈萨比斯：它在多个维度上都令人兴奋。首先，我们已经在用它进行训练。例如，我们有一个名为SIMA（模拟智能体）的游戏智能体，可以开箱即用地操作并玩一款现有电脑游戏。它有时表现不错，有时不够理想。有趣的是，我们可以把SIMA放进Genie 3里，相当于一个AI在另一个AI的“脑海”中行动。SIMA根据目标（比如找到房间里的钥匙）发出操作指令，而Genie 3则实时生成游戏世界。这样可以创造无限的训练数据，对机器人训练或AGI系统的通用训练都有价值。同时，它在互动娱乐领域也有巨大潜力。我有很多想法去打造下一代游戏，甚至可能催生一种介于电影与游戏之间的新型娱乐形式。最后，从科学家角度看，最有趣的是这能告诉我们关于现实世界、物理规律甚至模拟理论的信息。当你在深夜生成整片虚拟世界时，会不自觉地思考：现实世界的本质是什么？这也是我整个职业生涯推动自己用AI服务科学的动力所在。我认为像Veo 3和Genie 3这样的模型，换个角度观察，能给我们关于现实本质的启示。

AI的能力鸿沟：强大生成力与低级错误并存

基尔帕特里克：这正好能回到“参差型智能”问题。一方面，已经有了能生成完整虚拟世界的系统；另一方面，让Gemini下国际象棋，我可能都能赢它，有时它甚至会违反规则。我们最近宣布了DeepMind与Kaggle合作推出“游戏竞技场”，让模型在各种游戏中对战并接受测试。你怎么看？哈萨比斯：这反映了一个更普遍的问题——如今的系统在很多方面都很强大：能从文本生成模拟世界，能理解视频，能解数学题、做科研。然而，用过这些聊天机器人的人都知道，它们的能力边界很容易被触碰到。在我看来，这种缺乏一致性，正是它们距离实现完全AGI还差的一步。一个普通人不应该如此轻易就能发现系统的低级缺陷。我们或许已经解决了过去那种“数strawberry里的R”用于评估模型细节关注度的低级问题，但依然存在一些小学生都能轻松完成、而模型却失败的任务。这很可能是因为在推理、规划、记忆等方面，仍然缺少关键性创新。此外，现有的评测基准中，很多已经接近饱和。比如在AIME数学测试上，Deep Think最近的成绩已经达到99.2%，几乎没有提升空间，这甚至可能意味着测试本身已经失去区分力。因此，需要设计更新、更难、覆盖面更广的评测，用来考察模型的物理直觉、世界理解以及安全性（比如防止欺骗行为）。我对“游戏竞技场”非常期待，因为它延续了最初做游戏AI的初衷。游戏是干净的测试环境，有客观分数，没有人为主观打分；它们会随着系统能力的提升自动增加难度，还可以不断引入更复杂的游戏。未来甚至能让AI自创新游戏、彼此对战学习，从而避免数据泄露或过拟合。这种多智能体环境将成为长期有效的重要评测基准之一。

能力内化 vs 外部调用：经验驱动的决策

基尔帕特里克：生活中有许多问题本质上都是一种评测。工作表现是一种评测，看待事物的方式也是评测。在游戏领域，有明确的约束条件和客观结果，但一旦扩展到非游戏领域，“真值”就很难定义。在人类日常任务中，如何构建强化学习环境？你觉得在非游戏环境中，该怎么捕捉这些特征？哈萨比斯：如何定义奖励函数或目标函数，一直是强化学习在真实且混乱环境中面临的最大挑战。现实世界中不存在单一目标函数，而是多个目标并存，权重会随着情绪、环境、职业阶段等因素不断变化。未来的通用系统必须学会理解用户的真实意图，并将其转化为一组可优化的奖励函数。这涉及元认知或“元强化学习”的研究——在主要系统之上再建立系统，用来推测主要系统的最优目标函数。这类研究在十年前的AlphaGo、AlphaZero游戏阶段就已经开始尝试，如今很可能会再次成为研究重点。基尔帕特里克：回到“思考趋势”和“游戏趋势”，历史上经历了多种模型扩展路径——预训练、后训练、数据扩展、算力扩展，后来又有了推理扩展，比如Deep Think就得益于推理能力的提升。现在似乎“工具”成了新的扩展维度。觉得给模型配备物理模拟器作为工具，会是未来的方向之一吗？哈萨比斯：工具使用是AI系统最重要的能力之一。思考型系统的核心在于，它能在思考过程中主动调用工具，比如搜索引擎、数学程序、编程环境，然后基于工具提供的结果调整规划。有趣的是，哪些能力应当放进主模型，哪些应当作为外部工具，这在数字系统中不像在人类身上那么清晰。对于人类来说，不属于身体的就是工具；但在AI中，这条界限很模糊。比如，下棋能力是直接内置在主模型中，还是调用Stockfish或AlphaZero作为外部工具？经验表明，如果某项能力（如数学、编程）能提升整体推理水平，就应该放入主模型；但如果它可能削弱模型的其他通用能力，则更适合作为外部工具。这完全是一个经验性问题，需要在实践中不断试验和验证。

AGI的综合能力蓝图：语言、多媒体与物理推理一体化

基尔帕特里克：很多开发者现在都会问，模型已经不再是过去那种静态的权重，而是在推理过程中能调用各种工具，功能越来越像一个完整的系统。这正在改变人们构建应用的方式。你怎么看这种从“模型”到“系统”的转变？对开发者有什么建议？哈萨比斯：模型的进化速度非常快，尤其是当工具能力与规划、思考能力结合后，其潜力可能呈指数级扩张，因为它们可以用全新的方式组合使用工具。我建议开发者多思考：哪些工具对AI的能力最有价值？然后着手构建这些工具。即便有了工具调用和智能体能力，这些系统本身还不是成品，它们依然需要大量的产品化工作。产品经理和设计师面临的挑战，是必须预判一年后的技术状态，并为那个未来去设计产品，同时允许底层引擎在3到6个月，甚至更短的周期内进行一次重大更新。基尔帕特里克：现在感觉几乎是每两周就有一次更新。哈萨比斯：确实是这种节奏，而且短期内不会改变。未来整个网络生态和应用的运作方式，都将因为智能体系统能够灵活使用工具而发生深刻变化。基尔帕特里克：Genie 3的进展令人震撼，很多人都迫不及待想亲手体验。从世界模型和Genie的角度看，下一步是什么？哈萨比斯：我们正在努力提升Genie的运行效率，好让更多用户尽快体验。目前它还处于有限预览阶段。我们也在思考最佳的发布方式，希望用户能够分享自己创作的世界，互相体验、投票，从而形成一个活跃的社区。但有一个关键问题是，如何保持世界生成的一致性——当某个提示生成了一个极具吸引力的世界，怎样确保后来者也能复现它？这是我们正在攻关的技术挑战之一。更长远来看，Genie、Veo、Gemini这些目前相对独立的模型，正逐渐走向融合，形成我们所谓的“全能模型”。它既能处理语言、多媒体，又能进行物理推理和内容生成，才是AGI应该具备的综合能力。基尔帕特里克：这样DeepMind就成了一家游戏公司了。哈萨比斯：这是我的秘密计划。等AGI安全落地之后，我就会用这些工具去制作史上最伟大的游戏——那将是我的梦想成真。

来源：https://www.aiagiai.com/13948.html