游乐游手机版
首页/科技数码/文章详情

约翰斯·霍普金斯大学打造游戏智能体持续成长评测场

时间:2026-07-02 10:16
这项由约翰斯·霍普金斯大学主导的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2606 24893,全文可通过该编号在arXiv平台查阅。人类是如何学习的?回想你初次体验一款全新的电子游戏。你不了解地图的布局,不清楚哪些道具具有价值,也不知道敌人会在何时突然出现。于是你开始探索、经历

这项由约翰斯·霍普金斯大学主导的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2606.24893,全文可通过该编号在arXiv平台查阅。

人类是如何学习的?

回想你初次体验一款全新的电子游戏。你不了解地图的布局,不清楚哪些道具具有价值,也不知道敌人会在何时突然出现。于是你开始探索、经历挫折、吸取教训、逐步摸索规律,最终形成一套属于自己的策略。在这整个过程中,你的大脑在不断学习——不是通过考前突击,而是在实战中随时更新对世界的认知。

现在,让AI来承担同样的任务。多数AI的训练方式,类似于让它提前遍历所有可能的题目,然后在考试时凭借记忆作答——考试期间,它既不能也不被允许继续学习。然而,这与真实世界的运行模式相去甚远。在现实中,无论是人类还是机器,都需要在“执行任务”的过程中持续更新自己的认知。

正是为了探究AI能否实现这一点,约翰斯·霍普金斯大学的研究团队开发了一套全新的评测框架,命名为AgentOdyssey——直译为“智能体的奥德赛”,寓意着一段在未知世界中不断学习、不断前行的漫长征程。

一、为什么现有测试方法存在不足

首先,我们来了解一些背景。近年来,以GPT为代表的大语言模型展现出了惊人的推理能力,研究者们也开始尝试用这些模型来驱动“智能体”——即能够在环境中感知、决策和行动的AI系统。这些智能体被部署在各种测试环境中:有的模拟家居任务,比如把苹果放进微波炉加热;有的模拟网页浏览;还有的模拟机器人操作。

然而,这些测试存在一个共同的隐含假设:AI在测试期间不允许再学习新内容。它就像一个参加期末考的学生,考前已完成学习,考试时只能依赖已有的记忆来作答。这种设定在实验室内易于控制,却与现实世界的需求完全脱节。

更棘手的是,即便某些研究考虑到了“学习”这一环节,通常也是先让AI在大量游戏对局中训练充分,然后再进行测试——学习和测试依然是两个独立阶段。而在真实世界中,一个部署完成的AI系统必须在其工作过程中持续学习,没有暂停、回炉重造再上岗的机会。

研究团队将他们真正想要研究的能力称为“测试时持续学习”——简单来说,就是AI在实际使用过程中,边行动边学习,并且学到的东西要能帮助它在后续做得更好。这与传统的“持续学习”也有所不同:传统持续学习假定存在一个清晰的训练-测试边界,而他们要研究的是没有这条界线的场景。

二、AI需要在游戏中学什么:五种核心能力

为了研究测试时持续学习,研究团队首先思考:一个能在真实世界中持续学习的AI,究竟需要具备哪些能力?他们从人类婴儿和幼儿的认知发展中汲取灵感——毕竟,人类是迄今为止最成功的“持续学习者”,在出生后的头几年里,不需要任何老师教授规则,就能通过与世界的互动学会大量知识和技能。

研究团队归纳出五种关键能力,它们彼此紧密依存,缺一不可。

第一种是探索

就像冒险者踏入一片未知的森林,AI需要主动去寻找新地点、新物品、新角色,而不是蜷缩在已知的安全区域内反复重复相同的事情。只有充分探索,才能积累足够的原材料供后续学习使用。

第二种是情景记忆

也就是记住“我做过什么事”。例如,AI三百步前把一块宝石放在了某个角落,现在需要找回来——这需要的不是对规则的理解,而是对自身经历的记忆。人类对此习以为常,但对AI来说却相当具有挑战性。

第三种是世界知识习得

AI需要通过与环境互动,掌握关于这个世界的具体规律——某种材料能炼成什么武器,深夜里哪些区域更加危险,特定时间段敌人的攻击力会增强。这些知识在游戏开始时无人告知AI,必须依靠自己摸索。

第四种是技能学习

也就是学会更高效地完成某类任务。例如,在纸上记下合成配方,下次需要合成时直接查阅,而不必每次从头摸索。这更接近于“程序性记忆”——知道如何做一件事,而不仅仅是了解这件事的相关知识。

第五种是长程规划

游戏中的主线任务往往需要拆解成许多步骤,有些步骤之间可能相隔数百个行动——比如先在某地采集材料,用材料合成钥匙,用钥匙打开图书馆的门,然后才能去图书馆与商人交易。AI需要在整个过程中保持对目标的追踪,而不是完成了一个小步骤就忘记了主要目标。

三、AgentOdyssey是什么样的游戏

研究团队设计AgentOdyssey的核心挑战在于:如何创造一个可以反复使用、且不会被AI提前“背答案”的测试环境?他们的解决方案是用AI来生成游戏本身。

AgentOdyssey是一个文字冒险游戏的生成框架。AI不看图、不听声音,所有关于世界的信息都以文字形式呈现。游戏世界由三类基本实体构成:地点(如城堡大厅、图书馆、山洞等)、物品(如木剑、草药、铁锭等)以及NPC(不由玩家控制的角色,包括友善的商人和敌对的怪物)。这些实体之间的空间关系构成一张“世界图谱”,类似一张地图,但用数据结构来表示。

游戏规则分为两类。“行动规则”定义了AI主动采取某个行动会产生什么效果——例如“捡起物品”、“攻击怪物”、“合成道具”。“步进规则”则定义了世界在AI不采取任何行动时,自身会如何运作——比如NPC会随机在地点间巡逻,深夜时怪物会在噪音大的地方自发出现,特定条件满足时商人会在地上留下写有消息的纸条。

每一步,AI会收到一段文字描述:当前时间、所在位置、周围有什么东西、周围有哪些NPC、自身状态如何(血量、等级、手中持有物)。然后AI需要从一个固定的动作库里选择一个动作执行,比如“进入图书馆”、“捡起铁锭”、“向商人出售水晶矿石”。

关键在于:游戏中的知识,例如哪种材料能合成什么道具、某个NPC在什么时间段特别危险、击败某个怪物会掉落什么物品——这些都不会提前告知AI,必须通过探索和互动来发现。而且,每次生成的游戏内容都不同,所以AI无法依靠背诵来应对。

研究团队使用一个由大语言模型驱动的生成引擎来创建这些游戏,引擎由三个子模块构成:实体生成器负责创建新的地点、物品和NPC;规则生成器负责生成新的行动规则和步进规则;任务生成器负责生成主线任务和支线任务。整个系统以一个“基础游戏”为模板,让AI在理解这个模板的基础上,创造出结构相似但内容完全不同的新游戏。

生成之后,系统还会自动运行测试——用随机行动的AI去玩这个游戏,检查是否存在程序错误,如果有则把错误反馈给生成器,让其修复。这确保了生成的游戏在技术上是可运行的。

与现有的文字游戏环境相比,AgentOdyssey有几个独特之处:游戏内容可以无限生成,不受固定数据集的限制;世界动态是独立于AI行动而自发运作的(NPC会自行走动,时间会自然流逝);游戏任务可以延伸到极长的步骤数;而且由于内容是新生成的,不存在被AI提前“背过”的可能性。

四、如何衡量AI的表现

在评测AI的表现时,研究团队设计了一套多维度的指标体系,而不仅仅看“任务完成了几个”。

游戏进度方面,主要任务完成的阶段数是核心指标,辅以支线任务完成数、探索过的地区数、合成过的新物品数、击败过的不同怪物数。由于不同运行之间的绝对数值可能有差异,研究团队对这些数值进行了归一化处理,使得不同AI之间的比较更加公平。

除了游戏内的直接表现,研究团队还设计了四项诊断测试,专门用于探查AI在五种核心能力上的具体水平。

世界知识问答是最直接的一项:在游戏开始前后,分别对AI提出一批关于游戏世界的选择题,例如“合成锁具需要什么材料?”、“哪个地区和农场相连?”通过比较前后的答题准确率,可以测量AI在游戏过程中究竟学到了多少新知识。这类问题同时也能检测数据污染——如果AI在游戏开始前就能以高准确率答对关于新生成游戏世界的问题,说明这些内容可能曾出现在其训练数据中,需要被过滤掉。

情景记忆问答则考察AI对自身经历的记忆:比如“你在哪里丢下了铁剑?”、“你上一个击败的怪物叫什么名字?”这些问题的答案从AI自己走过的轨迹中提取,没有标准答案,只有基于该次游戏实际发生事件的正确回答。

物品和动作探索率测量的是AI尝试过多少种不同物品和动作——游戏中有83种物品和22种动作,AI探索了几种?探索率越高,说明AI在这方面的能力越强。

行动多样性则使用一个熵值公式来计算:在连续的若干步行动中,AI的行为有多样化?如果AI总是重复同一个动作,熵值接近0;如果AI的行为丰富多样,熵值接近1。行动多样性的下降往往意味着AI陷入了某种“死循环”。

此外,研究团队还记录了每种方法消耗的总token数量(大语言模型处理信息的基本单位,可以粗略理解为“思考的工作量”),作为衡量计算成本的指标。

五、研究团队测试了哪些类型的AI智能体

研究团队测试了六大类AI智能体,每类采用不同的“记忆策略”,并配合不同的基础语言模型,形成了一个相当全面的对比实验。

长上下文智能体是最直接的实现方式:将每一步的观察、推理和行动都原原本本地追加到文本中,让AI的“记忆”随时间线性增长。这就像把整本日记都摆在眼前,想回忆什么就翻到哪里——但记得越多,每次思考时需要处理的内容就越庞大。

固定大小记忆智能体维持一个恒定长度的记忆窗口。最简单的实现是“滑动窗口”——只保留最近几步的记录,旧的自动淘汰,相当于只记得最近几天的事情。研究中还测试了一种名为MEM1的变体,它通过语言模型来主动更新和压缩记忆,而不是机械地丢弃旧记录。

检索增强型智能体将所有经历存入一个外部数据库,每次做决策时去数据库里检索最相关的几条记录作为参考。这就像拥有一个索引完善的笔记本,无需记住所有细节,但知道去哪里查阅。研究团队测试了四种变体:最基础的向量检索、Mem0(一个专门为AI记忆设计的系统)、Raptor(能对记忆进行层级摘要的检索方法)以及Voyager(最初用于Minecraft游戏的检索架构)。

参数微调智能体将经历直接“写进”模型参数中,而不是保存在外部。这类似于通过反复练习,让技能变成肌肉记忆——无需查阅笔记,已成为本能。研究团队使用的是LoRA,一种只更新模型参数中一小部分的高效微调方法,训练数据是AI自己与游戏互动产生的观察-推理-行动三元组。

强化学习智能体同样通过调整模型参数来学习,但驱动力不是“模仿正确答案”,而是“获得奖励”——具体采用的是PPO算法,一种广泛应用于强化学习的优化方法。

隐变量记忆智能体则是一条更为激进的路线:将经历压缩成模型内部的“记忆标记”,存入隐藏状态,而不是以文字形式显式保存。研究团队测试了MemoryLLM和MPlus两个系统,它们基于LLaMA 3/3.1-8B模型构建。

所有智能体都采用ReAct提示范式——在给出行动之前,先输出一段推理过程,模拟人类“先思考再行动”的习惯。基础模型方面,研究团队主要使用了OpenAI的GPT-5和GPT-5-mini,以及阿里云的Qwen3-4B,覆盖了闭源顶级模型和开源小模型两个端点。在附录中,研究团队还对比了Claude Opus 4.6、Gemini 3.1 Pro、Grok 4.1 Fast等更多前沿模型。

六、实验结果:谁表现最好,谁暴露了哪些问题

研究团队进行了两轮实验。第一轮在一个由AI生成的较复杂游戏中运行,游戏包含18个地区、83种物品类型、13种NPC类型,主线任务共24个阶段,每个AI运行500步。第二轮使用一个较简单的游戏(14个地区、49种物品、12种NPC、17个主线阶段),专门用于深入分析参数微调智能体的表现。

从第一轮实验的游戏进度来看,以GPT-5为基础的长上下文智能体表现最好,完成了3个主线任务阶段;GPT-5加上检索增强内存完成了2个;仅有短期记忆的固定窗口智能体完成了1个。但即使是最好的AI,也只完成了人类玩家完成的9个阶段任务中的3个,差距依然非常显著。

长上下文智能体的优势来自两点:它储存了所有过去的经历,推理时可以参考全部历史信息;同时,GPT-5本身对长上下文的处理能力也更强。当模型换成GPT-5-mini时,表现明显下降;换成Qwen3-4B时,下降更为明显。在附录的额外测试中,Claude Opus 4.6表现最佳,完成了5个阶段,但依然远不及人类的9个。

然而,长上下文智能体有一个致命弱点:计算成本随着步骤数的增加呈平方增长。随着游戏进行,它需要处理的文本越来越长,每一步的推理代价都在增加。当研究团队尝试为其加上“反思”模块时,由于每步额外的token消耗,AI很快就支撑不住了。相比之下,检索增强型和固定窗口型智能体的token消耗随步骤线性增长,成本控制更为容易。

诊断指标方面,长上下文GPT-5智能体的世界知识问答准确率在游戏前后提升了34.8个百分点,情景记忆问答准确率达到0.92,物品探索覆盖了18/83种类,动作探索覆盖了17/22种。这些数据在所有AI中是最高的,说明它确实学到了更多,也记住了更多——但这本质上是因为所有信息都在其上下文中,相当于开卷考试。更小的模型和记忆受限的智能体,世界知识问答的提升幅度要小得多,情景记忆准确率也普遍偏低。

从行动多样性的时间曲线来看,长上下文智能体的多样性虽然随时间有所下降,但整体维持在一个较高水平。固定窗口智能体和参数微调智能体则呈现出更陡峭的下降趋势,最终行为趋向单调,与此同时游戏进度也在同一时期进入平台期,两者高度相关。

MemoryLLM和MPlus这两种基于LLaMA 3/3.1-8B的隐变量记忆智能体,几乎无法产生有效行动,无效行动率高达100%,完全无法在游戏中有所作为。研究团队因此无法对它们进行情景记忆评测,因为它们的轨迹里全是“等待”这一个动作。

七、短期记忆为何如此重要

第二轮实验专门聚焦于参数微调智能体,结果揭示了一个贯穿全文的重要发现:短期记忆对几乎所有类型的智能体都有显著帮助,在参数微调型智能体上尤为明显。

在以Qwen3-4B为基础模型的测试中,最基础的参数微调智能体完成了0个主线任务阶段;加上反思机制后,依然是0个;加上摘要机制后,完成了1个;而加上短期记忆(保留最近5步的记录)之后,完成了7个主线阶段,一跃成为该实验组中表现最强的方法,甚至超过了固定窗口智能体(6个阶段)。

为什么短期记忆如此关键?研究团队给出了直觉性的解释:即使游戏需要长达数百步的长程规划,AI在每一步的决策中依然需要维护短期目标。以“收集5根木棍”为例,AI必须在收集过程中记住自己已经捡了几根,还差几根。没有短期记忆,AI很容易在完成一个小动作后就忘记了下一步该做什么。

更值得关注的是:带短期记忆的参数微调智能体,其表现超过了没有短期记忆的固定窗口智能体。这说明,通过训练将经验写入模型参数,确实是一种有效的长期记忆形式——短期记忆负责近期目标,参数记忆负责长期知识,两者互补,才能表现出色。

相比之下,反思(让AI在行动后总结经验教训)和摘要(让AI定期生成记忆摘要)这两种机制,在以推理模型为基础的设置中没有显示出帮助。研究团队认为,推理型模型在生成回答时已经内置了类似反思和摘要的过程,额外的显式机制反而增加了冗余和计算负担。

然而,参数微调智能体也暴露出一个严重问题:在诊断测试中,它们在游戏后的世界知识问答准确率反而低于游戏前,情景记忆准确率也接近于零。研究团队认为这是灾难性遗忘——模型在学习新知识的同时,把原本掌握的基础语言能力和常识给“覆盖”掉了,就像往一块黑板上反复写新内容,旧内容被擦掉了。这被研究团队视为未来工作中需要重点解决的问题。

八、AI在五种核心能力上的具体失败方式

研究团队对智能体的失败模式进行了细致的归纳,为每种核心能力总结出具体的失败表现。

在探索方面,AI普遍表现出“目标导向”的偏狭:只去捡和当前任务直接相关的物品,忽略那些暂时看起来没用但将来可能作为合成原料的东西。这种“只做眼前事”的策略,使它们错过了许多关键的中间资源,导致后续任务无法推进。对于行动空间的探索同样不足,大多数AI没有尝试所有可用的动作,因此对部分动作的效果完全不了解。

在情景记忆方面,最常见的失败是陷入重复循环:AI执行一段相同的动作序列,得到相同的失败反馈,却依然重复同样的行为,就像走进了一条死胡同却不知道转身。另一个问题是“幻觉”——AI声称某个物品在某个地方,但实际上物品已经不在那里了(或者根本没有在那里),说明其记忆并不准确,而是包含了被编造出来的内容。

在世界知识习得方面,较小的模型尤其容易“发明”不存在的合成配方,或者将正确的信息接收了却没有更新自己的知识体系——就像老师讲了一遍课,学生坐在那里却根本没有吸收进去。

在技能学习方面,当一个敌对NPC有固定的攻击模式时,大多数AI无法从多次交战中归纳出对策,而是每次都凭直觉反应,没有形成可复用的战术。更明显的是,没有任何被测试的AI学会了“把合成配方写在纸上供以后查阅”这一在游戏中明确提供了工具支持的技能。

在长程规划方面,AI在完成一个子任务后,经常“忘了”回去推进主线——比如去做了一个支线任务,做完之后不知道下一步该干什么,就在原地打转,而不是回到主线的下一个阶段继续推进。

此外,研究团队还发现了成本和效率问题:许多AI使用了过多的推理token,成本高昂,但实际决策质量并不匹配。研究团队指出,未来的智能体需要更高效的推理机制,能以更少的“思考量”做出更好的决策。

九、这一切意味着什么

归根结底,AgentOdyssey做了一件非常重要的事:它把“AI能否在做事的过程中持续学习”这个问题,变成了一个可以被严格测量的问题,而不只是一个泛泛而谈的愿景。

研究的结论是清醒而务实的:即使是目前最强的AI模型,在需要同时具备探索能力、长程记忆、世界知识习得、技能积累和任务规划的场景下,表现依然与人类有相当大的差距。最好的AI完成了24个主线阶段任务中的5个(Claude Opus 4.6),而人类可以轻松完成9个,而且人类在没有任何说明的情况下玩这个游戏,探索、记忆、学习、规划的过程基本上是在无意识中完成的。

这并不意味着现有技术一无是处。长上下文模型在信息管理上具有天然优势,但受限于成本;短期记忆是一个廉价且有效的增强手段,几乎所有类型的智能体都能从中受益;参数微调证明了在测试时将经验固化到权重里是可行的,但灾难性遗忘是必须正视的技术障碍。

这个框架本身也有其局限性。当前的AgentOdyssey只支持纯文字观察,不涉及图像或声音;每个游戏只有一个AI玩家,无法研究多智能体协作;时间是离散推进的(每步固定10分钟游戏时间),这与真实世界的连续时间流逝有所不同。研究团队在论文中明确指出,未来可以在这些方向上扩展这个框架。

对于AI领域的研究者来说,这项工作提出了几个值得深入探索的方向:如何让AI在学习新知识的同时不丢失旧能力?如何在有限的计算预算内让AI的有效决策时间跨度更长?如何让AI真正“记住”失败并从中改变行为,而不是重复同样的错误?

这些问题没有简单答案,但AgentOdyssey提供了一个可以反复运行、可以无限扩展、可以精确诊断的实验场所——这本身就是这项研究最大的贡献之一。

Q&A

Q1:AgentOdyssey测试的是AI的什么能力?
A:AgentOdyssey测试的是AI在游戏运行过程中“边做事边学习”的能力,具体包括五个方面:主动探索未知区域和物品、记住自己的经历(情景记忆)、通过互动学习世界规律(世界知识习得)、形成可复用的操作技能,以及跨越数百步的长程任务规划。这五种能力合在一起,就是研究团队所说的“测试时持续学习”。

Q2:AgentOdyssey测试发现目前最强的AI在游戏中能做到什么程度?
A:在第一轮实验中,以GPT-5为基础的长上下文智能体完成了24个主线任务阶段中的3个,是所有被测AI中表现最好的。在附录的扩展测试中,Claude Opus 4.6完成了5个阶段。相比之下,人类玩家可以完成9个阶段。也就是说,即使是最先进的AI,游戏表现也只有人类的一半左右,差距依然相当明显。

Q3:为什么给AI加上短期记忆之后效果会明显变好?
A:短期记忆帮助AI记住最近几步的观察和行动,解决了一个常见失败:完成了一个小步骤后忘了下一步该干什么。比如任务是“收集5根木棍”,没有短期记忆的AI捡了一根后就忘了还差几根;有了短期记忆,它能持续追踪进度。研究发现,短期记忆让参数微调智能体的主线任务完成数从0提升到了7个,是提升效果最显著的单一机制。

来源:https://www.163.com/dy/article/L0PK8V3H0511DTVV.html
上一篇WAIC企业家论坛百位跨界企业家齐聚共探AI转型 下一篇苹果遭印度合作伙伴泄密,iPhone 18 Pro大量细节与超20万份文件流入暗网
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。