新加坡国立大学打造游戏AI考场测试人工智能真实智力水平

首页

热心网友

转载

2026-05-15

这项由新加坡国立大学与牛津大学联合主导的研究项目，于2026年4月以技术报告形式发布，并提交至预印本平台arXiv，编号为arXiv:2604.07429。对该研究感兴趣的读者可通过此编号查阅完整的论文内容。

新加坡国立大学等机构打造的游戏AI考场：让AI玩游戏，才能看出它到底有多聪明

评估一个人的真实智力，仅凭静态的试卷分数是远远不够的，关键在于考察其在动态、充满不确定性的真实环境中灵活应变的能力。这一准则同样适用于衡量人工智能的水平。一个核心议题由此产生：若想真正探明那些强大的多模态大语言模型（能够综合处理图像、文本并进行推理的AI）的能力边界，是否应该将它们置于游戏世界中进行实战检验？

为此，一个名为GameWorld的基准测试平台应运而生。它如同一个为AI玩家量身打造的“数字竞技场”，整合了34款浏览器游戏与170个具体任务，要求AI在画面实时变化的环境中，进行观察、路径规划、角色操控并达成目标。其独特价值在于：每一次“考核”的成绩，均不依赖人工主观评判，而是通过直接读取游戏内部的状态数据来生成，确保了评估结果的绝对客观性、高度可复现性与可验证性。

研究团队为该平台设计了两套不同的“参赛模式”，并邀请了13个主流AI模型参与测试，最终形成了18组模型与接口的组合。测试结果颇具启示——即便是表现最优异的AI模型，其综合能力距离一位未经专门训练的普通人类玩家，仍有显著差距。这并非一个令人满足的结论，而是一个清醒的警示：应对真实世界的复杂交互与动态任务，对当前的人工智能而言，依然是一项艰巨的挑战。

一、为何选择游戏作为AI能力的试金石

在人工智能能力评估领域，学术界已有多种测试方法，例如问答、图像描述、代码生成或文本翻译等。然而，这些测试大多存在一个共性局限：它们通常是“单次输入-单次输出”的静态考核，AI给出回应后测试即告结束。这与现实世界中持续、多步、带有反馈循环的任务模式相去甚远。

游戏环境则提供了一个截然不同的评估场景。在游戏中，AI必须持续进行“观察-决策-行动-获得反馈”的闭环操作。每一步的决策失误都可能影响后续局势，这种模式高度模拟了人类在现实中的问题解决过程。更重要的是，游戏能提供即时、明确且无歧义的反馈（如碰撞失败、掉落即结束），使得评估标准清晰可量化。

选择浏览器游戏作为载体，具有显著的实用优势。这类游戏无需安装复杂引擎，易于重置，能够快速启动多个独立实例进行并行测试。相较于依赖专用模拟器或硬件的传统游戏AI研究方法，此方式更为轻量化，且具备极强的可扩展性。

事实上，在GameWorld之前，已有研究尝试利用游戏测试AI，但往往存在覆盖游戏类型少、依赖人工评分、或无法区分AI是因“思考缓慢”还是“决策错误”而失败等痛点。GameWorld正是针对这些不足，提出了一套系统化、标准化的解决方案。

二、竞技场内的34条赛道：全面考察AI能力维度

GameWorld的游戏库根据玩法特征划分为五大类别，旨在系统性地考察AI在不同维度的能力。

跑酷类（8款）：包括Chrome恐龙跳跃、神庙逃亡2、Flappy Bird等。此类游戏场景持续自动滚动，要求AI以极高的频率做出即时反应——跳跃、闪避、转向，考验的是类似高速驾驶中所需的快速判断与条件反射能力。

街机类（7款）：如吃豆人、打砖块、贪吃蛇。游戏节奏快，且需要同时追踪多个动态目标。AI不仅要控制己方角色，还需预判敌人或物体的移动轨迹，类似于同时关注棋盘上多颗棋子的动向。

平台跳跃类（8款）：以马里奥、Vex 3等为代表。这类游戏对物理规律的把握要求极高——跳跃时机、落点精度、与平台边缘的距离控制，考验的是深度空间感知与精细动作操控能力。

解谜类（7款）：包括2048、扫雷、Wordle、俄罗斯方块等。节奏相对和缓，不强调快速反应，但着重考察逻辑推理、多步规划以及在信息有限情况下的最优决策能力，是推理型AI的潜在优势领域。

模拟经营类（4款）：如Minecraft克隆版、猴子超市等。这是最为开放、目标最多元的类型。AI需要协调多个子任务、进行资源管理、并在较长的时间跨度内保持策略的一致性，是对综合智能的高阶考验。

总计34款游戏中，每款均设置了5个不同的量化任务，共170个。任务目标明确（如“在本关收集3枚金币”），使用自然语言描述，但执行完全依靠AI自主观察画面并决策，无任何外部提示。

三、两种参赛模式：专精型与通用型的较量

该“考场”设定了两种不同的“参赛资格”，对应两类AI模型。

第一种是“直接操控型”。此类AI能够像人类玩家一样，直接输出鼠标点击（指定屏幕坐标）和键盘按键指令。这种方式最贴近真实操作，灵活性最高，但对AI的视觉定位精度和动作执行准确性要求也极为苛刻。

第二种是“语义指令型”。此类AI不直接处理底层坐标，而是通过一套预设的“高级语义动作”来控制游戏。例如，在马里奥游戏中，它可以调用“向右移动”、“跳跃”等指令，系统再将其转换为具体的键盘操作。这使得那些擅长策略制定与语言理解，但不精于像素级操控的通用多模态AI也能参与测试。

两种模式在最底层共享同一套指令转换系统，确保了比较基准的公平性。此外，研究团队为每个参赛模型配备了包含结构化提示模板、滚动记忆模块、推理能力及工具调用机制的“智能工具箱”，以支持其进行长时间的连贯策略执行。

四、“暂停机制”的巧思：确保评估聚焦于决策质量

游戏测试面临一个现实挑战：不同AI模型的“思考速度”差异巨大。在实时游戏中，思考慢的模型会因游戏在其“思考”时持续进行而处于天然劣势。

GameWorld通过引入巧妙的“沙盒暂停”机制解决了这一问题：当AI在处理画面、进行内部推理时，游戏世界会自动暂停；待AI发出行动指令后，游戏才继续运行。如此，所有AI面对的游戏初始状态完全相同，最终得分纯粹反映其“决策质量”，而非“计算速度”。

当然，现实应用场景中不可能总有暂停机会。因此，团队还设计了补充版本——GameWorld-RT（实时版）。在此版本中，游戏不会暂停，AI的思考速度本身就成为影响成绩的关键因素之一。两个版本各有侧重，前者测核心决策能力，后者测综合反应与效率。

五、客观评分体系：从游戏内部直接读取数据

传统游戏AI测试的评分方式常存在缺陷。例如，使用另一个AI模型来评判游戏截图，可能导致误差叠加；或采用图像识别技术读取分数，其本身存在识别错误率。

GameWorld采用了更为彻底的解决方案：从游戏源代码层面直接获取数据。研究团队为每款游戏注入了特定的JavaScript桥接代码，能够实时读取游戏内部的状态变量（如当前得分、生命值、金币数量、角色坐标、关卡进度等），并将这些数据以结构化格式提供给评分系统。这种方式使得评分准确度接近100%，且完全可复现。

每个任务对应两个核心评分指标：一是“成功率”（二进制，任务完成与否）；二是“进度”（0-100%的连续值，表示任务完成度）。引入“进度”指标至关重要，它能有效区分“开局即失败”和“完成大半才失败”的情况，为评估AI的渐进式能力提供了更细腻的尺度。

此外，当AI触发失败条件时，游戏不会立即终止整个测试，而是重置到任务起点，允许AI在剩余的操作步数预算内继续尝试，并记录其达成的最佳进度。这意味着单次失误不会导致整体表现归零，评分更能反映AI的持续学习与适应能力。

六、18组选手竞技：测试结果深度解析

研究团队选取了13个具有代表性的AI模型，构成了18组测试组合。其中包括Anthropic的Claude-Sonnet-4.6、谷歌的Gemini系列、OpenAI的GPT-5.2、xAI的Grok-4.1-Fast-Reasoning等商业模型，以及Qwen3-VL、UI-TARS等开源模型。

测试结果显示，在语义指令型中，表现最佳的是谷歌的Gemini-3-Flash-Preview，整体进度得分为41.9%；GPT-5.2以40.6%紧随其后。在直接操控型中，表现最佳的是字节跳动的Seed-1.8，进度得分为39.8%。

这些数字初看尚可，但与人类基准对比后则显现差距。研究团队邀请两位计算机专业研究生进行对照测试：完全新手的玩家平均进度达到64.1%，成功率为55.3%；而事先研究过规则的熟练玩家，进度和成功率分别高达82.6%和77.1%。即便是表现最好的AI模型，与人类新手之间仍有约22个百分点的进度差距。

从游戏类型分析，AI在跑酷类游戏上表现相对较好，而在模拟经营类游戏上几乎全部遭遇滑铁卢——后者所需的长期规划与多目标协调能力，正是当前AI的明显短板。解谜类游戏成绩参差不齐，逻辑推理强的模型有一定优势，但在需要精准视觉判断（如扫雷）的场景中仍频繁出错。

七、五层能力阶梯：诊断AI的具体短板

仅看总分不足以全面诊断问题。研究团队进一步将34款游戏按其核心考验的能力，排列成一个五层的能力阶梯模型。

第一层：基础操控与时机把握。对应最简单的动作执行，如在正确时刻按下正确按键。如打砖块、Core Ball等游戏，战略负担轻，主要考察从视觉判断到精准动作的转化能力。

第二层：直觉式即时反应。对应需要持续高频直觉决策的游戏，如Chrome恐龙、Flappy Bird。考验纯粹的反应速度和动作稳定性。

第三层：规划式空间导航。对应需要思考路径、规划行进方向的游戏，如吃豆人、马里奥。不仅需要快速反应，还需在认知中构建并维持空间地图。

第四层：符号推理与策略规划。对应解谜类游戏，需要理解抽象规则、进行多步推理与规划。如Wordle、扫雷、2048。

第五层：开放世界协调与资源管理。对应模拟经营类游戏，最为复杂，要求同时追踪多目标、管理资源、并在长期跨度内保持策略一致性。

测试结果揭示了清晰的能力图谱：无论是哪种类型的AI，在第四层（策略推理）和第二层（即时反应）的成绩相对较好；而在第一层（基础时机把握）和第五层（长期协调管理）的成绩则明显偏低。这表明，AI在“知道该做什么”上已有相当水平，但在“精确地在正确时刻执行”和“在漫长任务链中不忘初心”上，存在显著缺陷。

八、稳定性验证：评测系统的可靠度

一套可靠的评测系统必须具备稳定性。研究团队对此进行了严格验证，选取了两个开源模型，在两种接口下各运行了10轮完整的全量测试。

结果显示，四种组合的整体进度得分标准差均在1.1个百分点左右，成功率波动也有限。这证明GameWorld作为一个测量工具是稳定可靠的。当然，也有少数游戏（如Hextris、Wordle）表现出了更明显的轮次间波动，这恰恰说明了这些游戏具有足够的挑战性和区分度，能够捕捉到AI能力的细微差异。

九、记忆的代价：上下文长度并非总是有益

研究还专门探讨了AI的“记忆长度”（携带的历史操作轮数）对成绩的影响。结果发现了一个有趣的现象：对于语义指令型AI，增加记忆轮数（从0到2）能小幅提升成绩；但对于直接操控型AI，记忆轮数增加反而导致成绩持续下降。

原因在于：语义指令型的历史记录是高级的、语义化的（如“我上次向右走了”），信息密度高，有助于避免重复错误；而直接操控型的历史记录是底层的坐标和按键序列，信息量大但语义稀疏，过多的低价值历史信息反而会成为干扰噪声。

同时，增加记忆会带来显著的计算开销。语义指令型AI从0轮记忆到2轮，每步平均处理时间从5.5秒增至8.6秒；直接操控型则从7.2秒增至12.8秒。这表明，记忆并非免费午餐，在实际应用中需要仔细权衡其带来的收益与成本。

十、指令遵循率：揭示AI的“健忘症”问题

另一个关键指标是“无效动作率”，即AI发出的、因不符合游戏规则而无法执行的动作所占比例。

结果显示，大多数顶尖模型的无效动作率极低，接近零。但也有例外：例如GLM-4.6V的无效动作率高达8.3%，主要问题在于其输出了自然语言指令而非规定的工具调用格式；Qwen3-VL-30B-A3B则有2.7%的无效动作，主要是在长时间交互后“忘记”了当前游戏允许的动作范围。这些数据揭示了一个实际问题：在长序列交互任务中，模型可能出现“指令漂移”或遗忘约束条件，这是实际部署中必须关注的可靠性问题。

十一、实时版本的启示：速度与精度的平衡

GameWorld-RT（实时版）的测试给出了一个重要启示。在不暂停的实时环境下，思考速度快的小模型与思考更深但速度慢的大模型，最终的整体进度成绩接近（都在33%左右）。这说明在实时约束下，单纯的“快速反应”或“深度思考”都不足以形成绝对优势，真正的挑战在于在有限时间内实现速度与决策质量的平衡。

需要注意的是，实时版的成绩不能与暂停版直接比较，因为两者测试的是不同维度的能力（综合反应 vs. 纯决策质量），互为补充。

十二、AI失败的四种典型模式

通过深入分析失败案例，研究团队归纳出AI在游戏中失败的四种典型模式：

感知错误：AI错误识别了画面信息，误判了障碍物或自身位置，导致后续决策基于错误前提。在画面复杂、信息密集的场景中尤为常见。

执行偏差：AI理解了任务目标，但动作执行出现偏差——跳跃时机不准、按键时长错误、组合键时序混乱。属于“策略正确，执行失误”。

指令偏离：AI在长时间交互后逐渐偏离核心任务目标，开始执行无关动作，或尝试调用不存在的指令，甚至忽略了基本的任务要求。

记忆丢失：AI在多步任务中丢失了关键的历史操作信息，陷入重复循环（例如不断走入同一条死路），无法意识到自己处于无效循环中，更缺乏自我纠正的能力。

这四类失败模式，为未来AI能力的改进指明了清晰的方向：需要进一步提升视觉理解的精度、动作控制的准度、长期记忆的稳定性以及指令遵循的鲁棒性。

结语

归根结底，GameWorld试图回答一个根本性问题：我们当前的人工智能，是否已准备好应对复杂多变的现实世界？目前的答案清晰而审慎：尚未完全准备好，但我们终于拥有了一把能够精确度量其与现实需求之间距离的标尺。

当前最先进的AI模型在游戏中的表现，与一位未经准备的普通人类玩家相比，仍有约22个百分点的进度差距。这一差距既存在于需要毫秒级反应的操控层面，也存在于需要长远眼光的策略规划层面，更存在于经历数十步操作后仍能牢记最终目标的持久记忆层面。

对于广大观察者而言，这项研究意味着：当听闻某个AI“能够玩游戏”时，或许可以进一步追问——它是能够真正理解并完成任务，还是仅仅在进行看似复杂的随机操作？而GameWorld这把标尺，正是为了给这个问题提供一个清晰、客观、可重复验证的答案而存在的。

常见问题解答 (Q&A)

Q1：GameWorld基准测试与其他AI游戏测试平台的核心区别是什么？

最核心的区别在于其客观、可复现的评分体系。GameWorld不依赖截图识别或另一个AI模型进行主观评分，而是通过直接读取游戏源代码内部的状态数据（如得分、坐标、物品数量）来评分，结果完全确定且可重现。此外，其独特的“沙盒暂停”机制将AI的思考速度与决策质量分离评估，确保了测试的公平性，避免了反应速度快的模型天然占优。

Q2：在GameWorld中，哪类游戏对AI的挑战最大？

模拟经营类游戏对几乎所有参与测试的AI模型都是最大的挑战。这类游戏要求AI同时协调多个相互关联的目标、进行有效的资源管理，并在长达数十步的操作序列中始终保持最初的战略方向。测试数据显示，大多数模型在猴子超市、Minecraft克隆版等游戏上的成功率接近零，进度得分也普遍偏低。

Q3：GameWorld测试涵盖了哪些AI模型？开源模型的表现如何？

测试涵盖了包括Claude、Gemini、GPT-5.2、Grok、Kimi在内的主流商业模型，以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款开源模型。开源模型的总体进度得分在30%至31%之间，低于表现最佳的商业模型约10个百分点。但经过10轮重复测试验证，其成绩波动标准差在1.1%以内，表现出了良好的稳定性和可重现性。

来源:https://www.techwalker.com/2026/0417/3184345.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：伊利诺伊大学新研究让AI视频生成掌握物理常识下一篇：浙江大学联合苹果腾讯制定手机AI助手评测标准