DeepMind在《我的世界》自学挖钻石登Nature 玩家瑟瑟发抖

时间：2026-06-26 15:29

谷歌DeepMind开发的人工智能智能体Dreamer，完全依靠强化学习自我探索，在《我的世界》中无需人类数据即可挖到钻石。其成功关键在于构建世界模型，通过想象未来场景决策，完成了从树木到钻石的复杂流程，被视为迈向通用人工智能的重要里程碑。

AI的进化速度确实令人惊叹，甚至让人感到有些跟不上节奏。谷歌DeepMind最新推出的研究成果，成功登上了《自然》杂志——一个名为Dreamer的AI智能体，在完全不依赖任何人类数据的情况下，仅凭自我学习，便在《我的世界》中挖掘到了钻石。

论文链接：https://www.nature.com/articles/s41586-025-08744-2

DeepMind的计算机科学家Danijar Hafner对此评价道，Dreamer是一项重要的里程碑，标志着人工智能正在朝着通用人工智能的方向迈出关键一步。

Why Dreamer's Minecraft Feat Is a Major Leap Toward AGI

利用AI挑战《我的世界》，在人工智能领域并不算新鲜事。作为全球月活跃用户突破一亿的沙盒游戏，《我的世界》吸引了各个年龄段的玩家。早在两三年之前，包括OpenAI在内的多家机构就曾进行过此类尝试。

事实上，早在2019年就有研究人员指出，《我的世界》这种高度开放的游戏环境，非常适合用于AI研究。一个七八岁的孩子看完10分钟的演示视频，就能学会如何在游戏中找到钻石，而当时的AI却完全无法做到这一点。

AI从《我的世界》中的一个随机位置开始，必须完成一系列任务才能找到钻石

那么，DeepMind这次凭什么敢宣称这是“通向AGI的一大步”？

任务本身听起来简单，实际操作却极其困难。即使是资深玩家，通常也需要花费20到30分钟才能成功找到一颗钻石。

为不熟悉游戏的朋友拆解一下，这个任务的难点究竟在哪里：

每一次游戏开始，世界都是随机生成的，包含森林、山脉、沙漠、沼泽等多种地形，AI无法依靠记住一条固定路线来“作弊”；
获取钻石需要经历一套相当复杂的流程，绝不是随意在游戏里四处挖掘就能碰到。大致流程是：先找到树木，将其分解成木材，用木材制作工作台，再在工作台上用更多木材制作一把木质镐头，然后才能开始挖掘，寻找钻石……

Diamonds Are Forever, and AI Never Tires

AI研究者们之所以盯上《我的世界》中找钻石这个任务，Hafner解释，是因为它背后需要一系列复杂步骤，形成了一条很长的里程碑链条，这对AI的探索深度提出了极高要求。

DeepMind的Dreamer AI在《我的世界》中通过多次游戏学习如何收集钻石

此前的尝试，要么依赖人类游戏录像数据，要么需要研究人员逐步引导AI系统完成各个子任务。而Dreamer却完全不同，它完全依靠强化学习中的试错机制，自主探索游戏中的所有内容——识别出哪些动作能带来奖励，然后不断重复它们，并放弃无效的动作。

强化学习本身就是许多重大AI突破的基石，但过去的程序往往偏向“专家型”，很难将在一个领域学到的知识，零基础地迁移到新任务上。

The Key to Success: Building a World Model

Dreamer这次能够成功，关键在于它构建了一个周围环境的模型，并利用这个“世界模型”在脑海中“想象”未来的各种可能性，然后据此做出决策。

这有点像人类的抽象思维——世界模型并非对现实环境的精确复制，而更像是一种抽象理解。Hafner说，世界模型赋予了AI系统“想象未来”的能力。

这项能力未来很可能被用于让机器人在真实世界中进行学习与互动。毕竟在现实世界中，试错的成本远高于在游戏里。

有意思的是，研究团队起初并不是为了这个“钻石测试”而去研究Dreamer的。测试Dreamer在钻石挑战上的表现，更像是一个“事后想法”。Hafner坦言，“整个算法在构建时，并没有特意考虑这一点”。但团队后来意识到，这恰恰是检验算法是否能够“开箱即用”、处理不熟悉任务的理想方式。

在《我的世界》中，团队设计了一套奖励协议：每当Dreamer完成钻石收集流程中涉及的12个步骤之一（例如制作木板、熔炉、开采铁矿、锻造铁镐等），系统就给予一个“+1”的奖励。这些中间奖励信号引导着Dreamer去选择那些更有可能挖到钻石的动作。团队每30分钟重置一次游戏，防止Dreamer记住某个特定的地图配置，强迫它学习获得奖励的通用规则。

在这个设定下，Dreamer大约需要连续玩九天，才能找到至少一颗钻石。作为对比，高手玩家找到一颗钻石只需20到30分钟，新手则需要更长时间。

Diamond Challenge in Minecraft

游戏中的每一次任务，都从一个不同的随机生成的无限三维世界开始。每次任务持续到玩家死亡或累计36000步（大约30分钟），动作空间则基于MineRL竞赛提供的分类系统，其中包含了抽象的合成动作。

据DeepMind宣称，Dreamer是第一个完全不使用人类数据、从零开始在《我的世界》中找到钻石的算法。所有Dreamer智能体都在一亿步内发现了钻石。相比之下，其他几个强大的算法（例如PPO、Rainbow和IMPALA）虽然也能推进到铁镐等高级物品阶段，但没有一个成功找到钻石。

Core Principles of the Dreamer Algorithm

Dreamer算法的核心，就是学习一个“世界模型”。

这个模型就像智能体的大脑，让它具备丰富的感知能力，并能够在脑海中“想象”未来的场景来规划行动。整个算法由三个关键的神经网络构成：世界模型、评论家网络和行动者网络。

世界模型通过自动编码来学习感官输入的抽象表示，并能通过预测未来的潜在动作表示和奖励来实现规划。这个世界模型被实现为一个递归状态空间模型。

评论家网络负责对世界模型预测出的每一种结果做出价值判断，评估这个结果对实现最终目标有多大的帮助。而行动者网络则根据评论家的判断，去选择能够达到最佳结果的那个行动。

这三个网络相互协作，在智能体与环境不断交互的过程中，通过回放经验数据同步进行训练。

训练过程中，世界模型的学习是最关键的一环。它既要学会从感官输入中提取有效信息，又要能预测未来的状态和奖励。为了达成这个目标，世界模型需要最小化三类损失：预测损失、动态损失和表示损失。

预测损失用于训练解码器和奖励预测器，动态损失训练序列模型预测下一个表示，表示损失则让表示更具可预测性。

图中可视化了世界模型的长期视频预测

Experimental Results

为了验证Dreamer的通用性，DeepMind团队在8个领域、超过150个任务上进行了测试，涵盖了连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、二维和三维世界以及程序生成等多种场景。

图中展示了基准测试结果，Dreamer在所有测试中均有更优异的表现

在Atari基准测试中，Dreamer能用更少的计算资源，超越MuZero、Rainbow和IQN等算法。在ProcGen基准测试里，面对随机生成的关卡和视觉干扰，Dreamer在5000万帧的预算内，仍然超过了经过精调的PPG和Rainbow。在DMLab基准测试中，经过1亿帧训练后，其性能远超IMPALA和R2D2+，数据效率更是提升显著。即使在训练预算只有40万帧的Atari100k基准测试中，Dreamer同样表现突出。在BSuite基准测试中，Dreamer在尺度稳健性方面也带来了很大改进。

研究人员还进行了消融实验，结果表明，所有采用的稳健性技术都有助于提升算法性能。

在对Dreamer算法缩放属性的研究中，团队训练了不同规模的模型，参数量从1200万到400万不等。结果发现，扩大模型规模不仅能提高任务性能，还能减少数据需求。同时，更多的梯度步数也能减少学习成功行为所需的交互次数。这说明Dreamer算法在计算资源增加时，性能能够稳健地提升，为实际应用提供了更灵活的选择。

这篇论文的核心思想，是训练一个单一的算法，期望它能在多样化的强化学习任务中都能有出色表现。在《我的世界》里找到钻石，或许只是通向AGI之路上的第一关。AI的下一个更大目标，是《我的世界》玩家面临的终极挑战：击杀末影龙——那个虚拟世界中最可怕的生物。

来源：https://www.aiagiai.com/9973.html