AI的进化速度确实令人惊叹,甚至让人感到有些跟不上节奏。谷歌DeepMind最新推出的研究成果,成功登上了《自然》杂志——一个名为Dreamer的AI智能体,在完全不依赖任何人类数据的情况下,仅凭自我学习,便在《我的世界》中挖掘到了钻石。

论文链接:https://www.nature.com/articles/s41586-025-08744-2
DeepMind的计算机科学家Danijar Hafner对此评价道,Dreamer是一项重要的里程碑,标志着人工智能正在朝着通用人工智能的方向迈出关键一步。
Why Dreamer's Minecraft Feat Is a Major Leap Toward AGI
利用AI挑战《我的世界》,在人工智能领域并不算新鲜事。作为全球月活跃用户突破一亿的沙盒游戏,《我的世界》吸引了各个年龄段的玩家。早在两三年之前,包括OpenAI在内的多家机构就曾进行过此类尝试。

事实上,早在2019年就有研究人员指出,《我的世界》这种高度开放的游戏环境,非常适合用于AI研究。一个七八岁的孩子看完10分钟的演示视频,就能学会如何在游戏中找到钻石,而当时的AI却完全无法做到这一点。

AI从《我的世界》中的一个随机位置开始,必须完成一系列任务才能找到钻石
那么,DeepMind这次凭什么敢宣称这是“通向AGI的一大步”?
任务本身听起来简单,实际操作却极其困难。即使是资深玩家,通常也需要花费20到30分钟才能成功找到一颗钻石。

为不熟悉游戏的朋友拆解一下,这个任务的难点究竟在哪里:
- 每一次游戏开始,世界都是随机生成的,包含森林、山脉、沙漠、沼泽等多种地形,AI无法依靠记住一条固定路线来“作弊”;
- 获取钻石需要经历一套相当复杂的流程,绝不是随意在游戏里四处挖掘就能碰到。大致流程是:先找到树木,将其分解成木材,用木材制作工作台,再在工作台上用更多木材制作一把木质镐头,然后才能开始挖掘,寻找钻石……
Diamonds Are Forever, and AI Never Tires
AI研究者们之所以盯上《我的世界》中找钻石这个任务,Hafner解释,是因为它背后需要一系列复杂步骤,形成了一条很长的里程碑链条,这对AI的探索深度提出了极高要求。

DeepMind的Dreamer AI在《我的世界》中通过多次游戏学习如何收集钻石
此前的尝试,要么依赖人类游戏录像数据,要么需要研究人员逐步引导AI系统完成各个子任务。而Dreamer却完全不同,它完全依靠强化学习中的试错机制,自主探索游戏中的所有内容——识别出哪些动作能带来奖励,然后不断重复它们,并放弃无效的动作。
强化学习本身就是许多重大AI突破的基石,但过去的程序往往偏向“专家型”,很难将在一个领域学到的知识,零基础地迁移到新任务上。
The Key to Success: Building a World Model
Dreamer这次能够成功,关键在于它构建了一个周围环境的模型,并利用这个“世界模型”在脑海中“想象”未来的各种可能性,然后据此做出决策。

这有点像人类的抽象思维——世界模型并非对现实环境的精确复制,而更像是一种抽象理解。Hafner说,世界模型赋予了AI系统“想象未来”的能力。
这项能力未来很可能被用于让机器人在真实世界中进行学习与互动。毕竟在现实世界中,试错的成本远高于在游戏里。
有意思的是,研究团队起初并不是为了这个“钻石测试”而去研究Dreamer的。测试Dreamer在钻石挑战上的表现,更像是一个“事后想法”。Hafner坦言,“整个算法在构建时,并没有特意考虑这一点”。但团队后来意识到,这恰恰是检验算法是否能够“开箱即用”、处理不熟悉任务的理想方式。
在《我的世界》中,团队设计了一套奖励协议:每当Dreamer完成钻石收集流程中涉及的12个步骤之一(例如制作木板、熔炉、开采铁矿、锻造铁镐等),系统就给予一个“+1”的奖励。这些中间奖励信号引导着Dreamer去选择那些更有可能挖到钻石的动作。团队每30分钟重置一次游戏,防止Dreamer记住某个特定的地图配置,强迫它学习获得奖励的通用规则。
在这个设定下,Dreamer大约需要连续玩九天,才能找到至少一颗钻石。作为对比,高手玩家找到一颗钻石只需20到30分钟,新手则需要更长时间。
Diamond Challenge in Minecraft
游戏中的每一次任务,都从一个不同的随机生成的无限三维世界开始。每次任务持续到玩家死亡或累计36000步(大约30分钟),动作空间则基于MineRL竞赛提供的分类系统,其中包含了抽象的合成动作。

据DeepMind宣称,Dreamer是第一个完全不使用人类数据、从零开始在《我的世界》中找到钻石的算法。所有Dreamer智能体都在一亿步内发现了钻石。相比之下,其他几个强大的算法(例如PPO、Rainbow和IMPALA)虽然也能推进到铁镐等高级物品阶段,但没有一个成功找到钻石。
Core Principles of the Dreamer Algorithm
Dreamer算法的核心,就是学习一个“世界模型”。
这个模型就像智能体的大脑,让它具备丰富的感知能力,并能够在脑海中“想象”未来的场景来规划行动。整个算法由三个关键的神经网络构成:世界模型、评论家网络和行动者网络。
世界模型通过自动编码来学习感官输入的抽象表示,并能通过预测未来的潜在动作表示和奖励来实现规划。这个世界模型被实现为一个递归状态空间模型。

评论家网络负责对世界模型预测出的每一种结果做出价值判断,评估这个结果对实现最终目标有多大的帮助。而行动者网络则根据评论家的判断,去选择能够达到最佳结果的那个行动。
这三个网络相互协作,在智能体与环境不断交互的过程中,通过回放经验数据同步进行训练。
训练过程中,世界模型的学习是最关键的一环。它既要学会从感官输入中提取有效信息,又要能预测未来的状态和奖励。为了达成这个目标,世界模型需要最小化三类损失:预测损失、动态损失和表示损失。

预测损失用于训练解码器和奖励预测器,动态损失训练序列模型预测下一个表示,表示损失则让表示更具可预测性。

图中可视化了世界模型的长期视频预测
Experimental Results
为了验证Dreamer的通用性,DeepMind团队在8个领域、超过150个任务上进行了测试,涵盖了连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、二维和三维世界以及程序生成等多种场景。

图中展示了基准测试结果,Dreamer在所有测试中均有更优异的表现

在Atari基准测试中,Dreamer能用更少的计算资源,超越MuZero、Rainbow和IQN等算法。在ProcGen基准测试里,面对随机生成的关卡和视觉干扰,Dreamer在5000万帧的预算内,仍然超过了经过精调的PPG和Rainbow。在DMLab基准测试中,经过1亿帧训练后,其性能远超IMPALA和R2D2+,数据效率更是提升显著。即使在训练预算只有40万帧的Atari100k基准测试中,Dreamer同样表现突出。在BSuite基准测试中,Dreamer在尺度稳健性方面也带来了很大改进。
研究人员还进行了消融实验,结果表明,所有采用的稳健性技术都有助于提升算法性能。

在对Dreamer算法缩放属性的研究中,团队训练了不同规模的模型,参数量从1200万到400万不等。结果发现,扩大模型规模不仅能提高任务性能,还能减少数据需求。同时,更多的梯度步数也能减少学习成功行为所需的交互次数。这说明Dreamer算法在计算资源增加时,性能能够稳健地提升,为实际应用提供了更灵活的选择。
这篇论文的核心思想,是训练一个单一的算法,期望它能在多样化的强化学习任务中都能有出色表现。在《我的世界》里找到钻石,或许只是通向AGI之路上的第一关。AI的下一个更大目标,是《我的世界》玩家面临的终极挑战:击杀末影龙——那个虚拟世界中最可怕的生物。
