DeepMind CEO定义世界模型标准:能理解并创造物理世界
时间:2026-06-23 14:25
8月13日,谷歌DeepMind首席执行官德米斯·哈萨比斯受邀参加播客节目《Release Notes》,深入探讨了公司最新技术进展与未来战略。其中,世界模型Genie 3的重大突破成为讨论焦点,但其背后蕴藏的AI发展方向更值得关注。 从AlphaGo攻克围棋难题,到Deep Think摘得国际数学
8月13日,谷歌DeepMind首席执行官德米斯·哈萨比斯受邀参加播客节目《Release Notes》,深入探讨了公司最新技术进展与未来战略。其中,世界模型Genie 3的重大突破成为讨论焦点,但其背后蕴藏的AI发展方向更值得关注。
从AlphaGo攻克围棋难题,到Deep Think摘得国际数学奥林匹克金牌;从Genie 3打造逼真虚拟世界,到未来有望诞生的“全能模型”,DeepMind的一系列成果令人瞩目。然而,哈萨比斯坦率指出,这些AI系统在部分领域的能力甚至不及普通人类——例如,它们在象棋对弈中偶尔会走出违规棋步。这种“参差型智能”现象,某种程度上揭示了当前人工智能发展的核心矛盾。
在哈萨比斯看来,“思考型模型”是实现通用人工智能(AGI)的关键路径;而DeepMind的最终愿景,是打造一个集语言理解、多媒体处理、物理推理与内容生成于一体的全能模型。该模型的根基,是持续演进的世界模型技术。以下为本次对话的详细实录。
思考型模型:从游戏AI到通用人工智能的演进之路
基尔帕特里克:今天做客我们节目的是谷歌DeepMind首席执行官德米斯·哈萨比斯。德米斯,欢迎你,感谢你能来。
哈萨比斯:你好,非常荣幸能参与这次对话。
基尔帕特里克:近期DeepMind密集发布了多项成果,包括Deep Think、IMO金牌、Genie 3等,感觉在短短一两个月内集中涌现,快到让人应接不暇。你对此有何看法?
哈萨比斯:过去几年我们一直在蓄力,加快了研发与发布的节奏,如今终于看到了成效。我认为当前是行业极为振奋人心的阶段。几乎每天都有新进展问世,我们团队几乎天天都有新东西发布,即便内部要跟上速度都颇具挑战,更不用说整个领域了。看到这些成果,我感到非常自豪。
基尔帕特里克:你怎么看待Deep Think?让我尤其兴奋的是,该模型的一个版本已经向Gemini应用的订阅用户开放,让大家能够真正上手体验。这种一边推动技术研发、一边让用户直接使用的结合,非常美妙。
哈萨比斯:“思考型”模型的出现,可以看作是我们早期游戏AI工作的延续,例如AlphaGo和AlphaZero。从DeepMind创立至今,我们一直在研发“基于智能体的系统”。早期,系统能完成一个完整任务,通常是把一款游戏玩到极致,因为游戏有明确的目标。当时模型是单一领域的游戏模型,而如今,我们拥有功能强大的多模态模型,既能处理语言,也能理解和整合其他信息。
在游戏AI中,需要在模型之上叠加“思考”或“规划”的能力。这是迈向AGI的必经之路。当模型具备思考能力,就能进一步延展到“深度思考”,甚至实现并行规划——同时推演多条思路,然后择优决策,进入下一步行动。
这一方向还有广阔的创新空间,但即便在“思考”环节,进展也非常迅速。无论是数学、编程、科学问题还是游戏,这类系统都必须具备思考与规划能力,而不是简单给出脑海中闪现的第一个答案。思考型系统的核心价值,就是不断修正和优化自身的推理过程。
基尔帕特里克:我之前观看了《The Thinking Game》那个视频,发现DeepMind团队很早就踏上了这条路,而且与当年用强化学习解决问题的过程有很多相似之处。比如AlphaFold曾面临的数据瓶颈,和如今编程等领域缺乏专家数据的困境很像。你有似曾相识的感觉吗?
哈萨比斯:确实如此。我们很早就坚定选择了强化学习,这是2010年做出的首批关键决策之一,与深度学习并列。当时的Atari项目,是第一个真正完成有趣任务的深度强化学习系统——它直接从屏幕像素中学习玩上世纪70年代的Atari游戏,并且表现超过任何人类玩家。更重要的是,它能“开箱即用”地玩任何Atari游戏,这种通用性证明了新技术具备规模化并发挥实际价值的潜力。
有趣的是,系统在某些方面表现惊艳,但在一些相对简单的任务上仍有不足,比如高中数学、基础逻辑,或某些特殊设计的小游戏。它们体现出一种“参差型智能”——在某些维度上表现惊人,在另一些方面则很容易暴露弱点。
从机器人到通用助理,Genie 3的多维度潜力
基尔帕特里克:许多人看了Genie 3的演示后感到震撼,有人甚至说“这是模拟理论的证据”。它确实与用游戏推动强化学习发展有关。回顾Genie 3,结果是否符合预期?提升模型玩游戏的能力,未必必然带来世界模型。
哈萨比斯:Genie 3融合了多条研究路径。我们一直把棋类或电子游戏作为挑战环境,不仅用来推动算法进步,也用来合成数据。我们构建了极为逼真的虚拟环境,用于训练系统理解物理世界。
我们想要构建的世界模型,不仅要理解物理结构、材料特性、液体流动,还要理解生物和人类的行为,因为AGI必须理解物理世界,才能在其中运作。这对机器人至关重要,也对通用助理项目如Project Astra(Gemini Live)不可或缺。
验证世界模型的一种方法,就是让它生成与现实一致的虚拟世界,比如打开水龙头会有水流出,镜子里会映出自己等。Genie 3之所以惊人,就在于它生成的世界具有一致性:你转身离开再回头,世界保持原样。这说明底层物理理解相当出色。
基尔帕特里克:你认为用户将如何使用Genie?目标是仅将它作为改进Gemini和其他机器人项目的工具,还是本身有更多用途?
哈萨比斯:它在多个维度上都令人兴奋。首先,我们已经在用它进行训练。例如,我们有一个名为SIMA(模拟智能体)的游戏智能体,可以开箱即用地操作并玩一款现有电脑游戏。它有时表现不错,有时不够理想。
有趣的是,我们可以把SIMA放进Genie 3里,相当于一个AI在另一个AI的“脑海”中行动。SIMA根据目标(比如找到房间里的钥匙)发出操作指令,而Genie 3则实时生成游戏世界。这样可以创造无限的训练数据,对机器人训练或AGI系统的通用训练都有价值。
同时,它在互动娱乐领域也有巨大潜力。我有很多想法去打造下一代游戏,甚至可能催生一种介于电影与游戏之间的新型娱乐形式。
最后,从科学家角度看,最有趣的是这能告诉我们关于现实世界、物理规律甚至模拟理论的信息。当你在深夜生成整片虚拟世界时,会不自觉地思考:现实世界的本质是什么?这也是我整个职业生涯推动自己用AI服务科学的动力所在。我认为像Veo 3和Genie 3这样的模型,换个角度观察,能给我们关于现实本质的启示。
AI的能力鸿沟:强大生成力与低级错误并存
基尔帕特里克:这正好能回到“参差型智能”问题。一方面,已经有了能生成完整虚拟世界的系统;另一方面,让Gemini下国际象棋,我可能都能赢它,有时它甚至会违反规则。我们最近宣布了DeepMind与Kaggle合作推出“游戏竞技场”,让模型在各种游戏中对战并接受测试。你怎么看?
哈萨比斯:这反映了一个更普遍的问题——如今的系统在很多方面都很强大:能从文本生成模拟世界,能理解视频,能解数学题、做科研。然而,用过这些聊天机器人的人都知道,它们的能力边界很容易被触碰到。
在我看来,这种缺乏一致性,正是它们距离实现完全AGI还差的一步。一个普通人不应该如此轻易就能发现系统的低级缺陷。我们或许已经解决了过去那种“数strawberry里的R”用于评估模型细节关注度的低级问题,但依然存在一些小学生都能轻松完成、而模型却失败的任务。这很可能是因为在推理、规划、记忆等方面,仍然缺少关键性创新。
此外,现有的评测基准中,很多已经接近饱和。比如在AIME数学测试上,Deep Think最近的成绩已经达到99.2%,几乎没有提升空间,这甚至可能意味着测试本身已经失去区分力。因此,需要设计更新、更难、覆盖面更广的评测,用来考察模型的物理直觉、世界理解以及安全性(比如防止欺骗行为)。
我对“游戏竞技场”非常期待,因为它延续了最初做游戏AI的初衷。游戏是干净的测试环境,有客观分数,没有人为主观打分;它们会随着系统能力的提升自动增加难度,还可以不断引入更复杂的游戏。未来甚至能让AI自创新游戏、彼此对战学习,从而避免数据泄露或过拟合。这种多智能体环境将成为长期有效的重要评测基准之一。
能力内化 vs 外部调用:经验驱动的决策
基尔帕特里克:生活中有许多问题本质上都是一种评测。工作表现是一种评测,看待事物的方式也是评测。在游戏领域,有明确的约束条件和客观结果,但一旦扩展到非游戏领域,“真值”就很难定义。在人类日常任务中,如何构建强化学习环境?你觉得在非游戏环境中,该怎么捕捉这些特征?
哈萨比斯:如何定义奖励函数或目标函数,一直是强化学习在真实且混乱环境中面临的最大挑战。现实世界中不存在单一目标函数,而是多个目标并存,权重会随着情绪、环境、职业阶段等因素不断变化。
未来的通用系统必须学会理解用户的真实意图,并将其转化为一组可优化的奖励函数。这涉及元认知或“元强化学习”的研究——在主要系统之上再建立系统,用来推测主要系统的最优目标函数。这类研究在十年前的AlphaGo、AlphaZero游戏阶段就已经开始尝试,如今很可能会再次成为研究重点。
基尔帕特里克:回到“思考趋势”和“游戏趋势”,历史上经历了多种模型扩展路径——预训练、后训练、数据扩展、算力扩展,后来又有了推理扩展,比如Deep Think就得益于推理能力的提升。现在似乎“工具”成了新的扩展维度。觉得给模型配备物理模拟器作为工具,会是未来的方向之一吗?
哈萨比斯:工具使用是AI系统最重要的能力之一。思考型系统的核心在于,它能在思考过程中主动调用工具,比如搜索引擎、数学程序、编程环境,然后基于工具提供的结果调整规划。
有趣的是,哪些能力应当放进主模型,哪些应当作为外部工具,这在数字系统中不像在人类身上那么清晰。对于人类来说,不属于身体的就是工具;但在AI中,这条界限很模糊。
比如,下棋能力是直接内置在主模型中,还是调用Stockfish或AlphaZero作为外部工具?经验表明,如果某项能力(如数学、编程)能提升整体推理水平,就应该放入主模型;但如果它可能削弱模型的其他通用能力,则更适合作为外部工具。这完全是一个经验性问题,需要在实践中不断试验和验证。
AGI的综合能力蓝图:语言、多媒体与物理推理一体化
基尔帕特里克:很多开发者现在都会问,模型已经不再是过去那种静态的权重,而是在推理过程中能调用各种工具,功能越来越像一个完整的系统。这正在改变人们构建应用的方式。你怎么看这种从“模型”到“系统”的转变?对开发者有什么建议?
哈萨比斯:模型的进化速度非常快,尤其是当工具能力与规划、思考能力结合后,其潜力可能呈指数级扩张,因为它们可以用全新的方式组合使用工具。
我建议开发者多思考:哪些工具对AI的能力最有价值?然后着手构建这些工具。即便有了工具调用和智能体能力,这些系统本身还不是成品,它们依然需要大量的产品化工作。产品经理和设计师面临的挑战,是必须预判一年后的技术状态,并为那个未来去设计产品,同时允许底层引擎在3到6个月,甚至更短的周期内进行一次重大更新。
基尔帕特里克:现在感觉几乎是每两周就有一次更新。
哈萨比斯:确实是这种节奏,而且短期内不会改变。未来整个网络生态和应用的运作方式,都将因为智能体系统能够灵活使用工具而发生深刻变化。
基尔帕特里克:Genie 3的进展令人震撼,很多人都迫不及待想亲手体验。从世界模型和Genie的角度看,下一步是什么?
哈萨比斯:我们正在努力提升Genie的运行效率,好让更多用户尽快体验。目前它还处于有限预览阶段。我们也在思考最佳的发布方式,希望用户能够分享自己创作的世界,互相体验、投票,从而形成一个活跃的社区。
但有一个关键问题是,如何保持世界生成的一致性——当某个提示生成了一个极具吸引力的世界,怎样确保后来者也能复现它?这是我们正在攻关的技术挑战之一。
更长远来看,Genie、Veo、Gemini这些目前相对独立的模型,正逐渐走向融合,形成我们所谓的“全能模型”。它既能处理语言、多媒体,又能进行物理推理和内容生成,才是AGI应该具备的综合能力。
基尔帕特里克:这样DeepMind就成了一家游戏公司了。
哈萨比斯:这是我的秘密计划。等AGI安全落地之后,我就会用这些工具去制作史上最伟大的游戏——那将是我的梦想成真。
来源:https://www.aiagiai.com/13948.html
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。