新加坡国立大学打造游戏AI考场 测试人工智能真实智力水平
这项由新加坡国立大学与牛津大学联合主导的研究项目,于2026年4月以技术报告形式发布,并提交至预印本平台arXiv,编号为arXiv:2604.07429。对该研究感兴趣的读者可通过此编号查阅完整的论文内容。

评估一个人的真实智力,仅凭静态的试卷分数是远远不够的,关键在于考察其在动态、充满不确定性的真实环境中灵活应变的能力。这一准则同样适用于衡量人工智能的水平。一个核心议题由此产生:若想真正探明那些强大的多模态大语言模型(能够综合处理图像、文本并进行推理的AI)的能力边界,是否应该将它们置于游戏世界中进行实战检验?
为此,一个名为GameWorld的基准测试平台应运而生。它如同一个为AI玩家量身打造的“数字竞技场”,整合了34款浏览器游戏与170个具体任务,要求AI在画面实时变化的环境中,进行观察、路径规划、角色操控并达成目标。其独特价值在于:每一次“考核”的成绩,均不依赖人工主观评判,而是通过直接读取游戏内部的状态数据来生成,确保了评估结果的绝对客观性、高度可复现性与可验证性。
研究团队为该平台设计了两套不同的“参赛模式”,并邀请了13个主流AI模型参与测试,最终形成了18组模型与接口的组合。测试结果颇具启示——即便是表现最优异的AI模型,其综合能力距离一位未经专门训练的普通人类玩家,仍有显著差距。这并非一个令人满足的结论,而是一个清醒的警示:应对真实世界的复杂交互与动态任务,对当前的人工智能而言,依然是一项艰巨的挑战。
一、为何选择游戏作为AI能力的试金石
在人工智能能力评估领域,学术界已有多种测试方法,例如问答、图像描述、代码生成或文本翻译等。然而,这些测试大多存在一个共性局限:它们通常是“单次输入-单次输出”的静态考核,AI给出回应后测试即告结束。这与现实世界中持续、多步、带有反馈循环的任务模式相去甚远。
游戏环境则提供了一个截然不同的评估场景。在游戏中,AI必须持续进行“观察-决策-行动-获得反馈”的闭环操作。每一步的决策失误都可能影响后续局势,这种模式高度模拟了人类在现实中的问题解决过程。更重要的是,游戏能提供即时、明确且无歧义的反馈(如碰撞失败、掉落即结束),使得评估标准清晰可量化。
选择浏览器游戏作为载体,具有显著的实用优势。这类游戏无需安装复杂引擎,易于重置,能够快速启动多个独立实例进行并行测试。相较于依赖专用模拟器或硬件的传统游戏AI研究方法,此方式更为轻量化,且具备极强的可扩展性。
事实上,在GameWorld之前,已有研究尝试利用游戏测试AI,但往往存在覆盖游戏类型少、依赖人工评分、或无法区分AI是因“思考缓慢”还是“决策错误”而失败等痛点。GameWorld正是针对这些不足,提出了一套系统化、标准化的解决方案。
二、竞技场内的34条赛道:全面考察AI能力维度
GameWorld的游戏库根据玩法特征划分为五大类别,旨在系统性地考察AI在不同维度的能力。
跑酷类(8款):包括Chrome恐龙跳跃、神庙逃亡2、Flappy Bird等。此类游戏场景持续自动滚动,要求AI以极高的频率做出即时反应——跳跃、闪避、转向,考验的是类似高速驾驶中所需的快速判断与条件反射能力。
街机类(7款):如吃豆人、打砖块、贪吃蛇。游戏节奏快,且需要同时追踪多个动态目标。AI不仅要控制己方角色,还需预判敌人或物体的移动轨迹,类似于同时关注棋盘上多颗棋子的动向。
平台跳跃类(8款):以马里奥、Vex 3等为代表。这类游戏对物理规律的把握要求极高——跳跃时机、落点精度、与平台边缘的距离控制,考验的是深度空间感知与精细动作操控能力。
解谜类(7款):包括2048、扫雷、Wordle、俄罗斯方块等。节奏相对和缓,不强调快速反应,但着重考察逻辑推理、多步规划以及在信息有限情况下的最优决策能力,是推理型AI的潜在优势领域。
模拟经营类(4款):如Minecraft克隆版、猴子超市等。这是最为开放、目标最多元的类型。AI需要协调多个子任务、进行资源管理、并在较长的时间跨度内保持策略的一致性,是对综合智能的高阶考验。
总计34款游戏中,每款均设置了5个不同的量化任务,共170个。任务目标明确(如“在本关收集3枚金币”),使用自然语言描述,但执行完全依靠AI自主观察画面并决策,无任何外部提示。
三、两种参赛模式:专精型与通用型的较量
该“考场”设定了两种不同的“参赛资格”,对应两类AI模型。
第一种是“直接操控型”。此类AI能够像人类玩家一样,直接输出鼠标点击(指定屏幕坐标)和键盘按键指令。这种方式最贴近真实操作,灵活性最高,但对AI的视觉定位精度和动作执行准确性要求也极为苛刻。
第二种是“语义指令型”。此类AI不直接处理底层坐标,而是通过一套预设的“高级语义动作”来控制游戏。例如,在马里奥游戏中,它可以调用“向右移动”、“跳跃”等指令,系统再将其转换为具体的键盘操作。这使得那些擅长策略制定与语言理解,但不精于像素级操控的通用多模态AI也能参与测试。
两种模式在最底层共享同一套指令转换系统,确保了比较基准的公平性。此外,研究团队为每个参赛模型配备了包含结构化提示模板、滚动记忆模块、推理能力及工具调用机制的“智能工具箱”,以支持其进行长时间的连贯策略执行。
四、“暂停机制”的巧思:确保评估聚焦于决策质量
游戏测试面临一个现实挑战:不同AI模型的“思考速度”差异巨大。在实时游戏中,思考慢的模型会因游戏在其“思考”时持续进行而处于天然劣势。
GameWorld通过引入巧妙的“沙盒暂停”机制解决了这一问题:当AI在处理画面、进行内部推理时,游戏世界会自动暂停;待AI发出行动指令后,游戏才继续运行。如此,所有AI面对的游戏初始状态完全相同,最终得分纯粹反映其“决策质量”,而非“计算速度”。
当然,现实应用场景中不可能总有暂停机会。因此,团队还设计了补充版本——GameWorld-RT(实时版)。在此版本中,游戏不会暂停,AI的思考速度本身就成为影响成绩的关键因素之一。两个版本各有侧重,前者测核心决策能力,后者测综合反应与效率。
五、客观评分体系:从游戏内部直接读取数据
传统游戏AI测试的评分方式常存在缺陷。例如,使用另一个AI模型来评判游戏截图,可能导致误差叠加;或采用图像识别技术读取分数,其本身存在识别错误率。
GameWorld采用了更为彻底的解决方案:从游戏源代码层面直接获取数据。研究团队为每款游戏注入了特定的JavaScript桥接代码,能够实时读取游戏内部的状态变量(如当前得分、生命值、金币数量、角色坐标、关卡进度等),并将这些数据以结构化格式提供给评分系统。这种方式使得评分准确度接近100%,且完全可复现。
每个任务对应两个核心评分指标:一是“成功率”(二进制,任务完成与否);二是“进度”(0-100%的连续值,表示任务完成度)。引入“进度”指标至关重要,它能有效区分“开局即失败”和“完成大半才失败”的情况,为评估AI的渐进式能力提供了更细腻的尺度。
此外,当AI触发失败条件时,游戏不会立即终止整个测试,而是重置到任务起点,允许AI在剩余的操作步数预算内继续尝试,并记录其达成的最佳进度。这意味着单次失误不会导致整体表现归零,评分更能反映AI的持续学习与适应能力。
六、18组选手竞技:测试结果深度解析
研究团队选取了13个具有代表性的AI模型,构成了18组测试组合。其中包括Anthropic的Claude-Sonnet-4.6、谷歌的Gemini系列、OpenAI的GPT-5.2、xAI的Grok-4.1-Fast-Reasoning等商业模型,以及Qwen3-VL、UI-TARS等开源模型。
测试结果显示,在语义指令型中,表现最佳的是谷歌的Gemini-3-Flash-Preview,整体进度得分为41.9%;GPT-5.2以40.6%紧随其后。在直接操控型中,表现最佳的是字节跳动的Seed-1.8,进度得分为39.8%。
这些数字初看尚可,但与人类基准对比后则显现差距。研究团队邀请两位计算机专业研究生进行对照测试:完全新手的玩家平均进度达到64.1%,成功率为55.3%;而事先研究过规则的熟练玩家,进度和成功率分别高达82.6%和77.1%。即便是表现最好的AI模型,与人类新手之间仍有约22个百分点的进度差距。
从游戏类型分析,AI在跑酷类游戏上表现相对较好,而在模拟经营类游戏上几乎全部遭遇滑铁卢——后者所需的长期规划与多目标协调能力,正是当前AI的明显短板。解谜类游戏成绩参差不齐,逻辑推理强的模型有一定优势,但在需要精准视觉判断(如扫雷)的场景中仍频繁出错。
七、五层能力阶梯:诊断AI的具体短板
仅看总分不足以全面诊断问题。研究团队进一步将34款游戏按其核心考验的能力,排列成一个五层的能力阶梯模型。
第一层:基础操控与时机把握。对应最简单的动作执行,如在正确时刻按下正确按键。如打砖块、Core Ball等游戏,战略负担轻,主要考察从视觉判断到精准动作的转化能力。
第二层:直觉式即时反应。对应需要持续高频直觉决策的游戏,如Chrome恐龙、Flappy Bird。考验纯粹的反应速度和动作稳定性。
第三层:规划式空间导航。对应需要思考路径、规划行进方向的游戏,如吃豆人、马里奥。不仅需要快速反应,还需在认知中构建并维持空间地图。
第四层:符号推理与策略规划。对应解谜类游戏,需要理解抽象规则、进行多步推理与规划。如Wordle、扫雷、2048。
第五层:开放世界协调与资源管理。对应模拟经营类游戏,最为复杂,要求同时追踪多目标、管理资源、并在长期跨度内保持策略一致性。
测试结果揭示了清晰的能力图谱:无论是哪种类型的AI,在第四层(策略推理)和第二层(即时反应)的成绩相对较好;而在第一层(基础时机把握)和第五层(长期协调管理)的成绩则明显偏低。这表明,AI在“知道该做什么”上已有相当水平,但在“精确地在正确时刻执行”和“在漫长任务链中不忘初心”上,存在显著缺陷。
八、稳定性验证:评测系统的可靠度
一套可靠的评测系统必须具备稳定性。研究团队对此进行了严格验证,选取了两个开源模型,在两种接口下各运行了10轮完整的全量测试。
结果显示,四种组合的整体进度得分标准差均在1.1个百分点左右,成功率波动也有限。这证明GameWorld作为一个测量工具是稳定可靠的。当然,也有少数游戏(如Hextris、Wordle)表现出了更明显的轮次间波动,这恰恰说明了这些游戏具有足够的挑战性和区分度,能够捕捉到AI能力的细微差异。
九、记忆的代价:上下文长度并非总是有益
研究还专门探讨了AI的“记忆长度”(携带的历史操作轮数)对成绩的影响。结果发现了一个有趣的现象:对于语义指令型AI,增加记忆轮数(从0到2)能小幅提升成绩;但对于直接操控型AI,记忆轮数增加反而导致成绩持续下降。
原因在于:语义指令型的历史记录是高级的、语义化的(如“我上次向右走了”),信息密度高,有助于避免重复错误;而直接操控型的历史记录是底层的坐标和按键序列,信息量大但语义稀疏,过多的低价值历史信息反而会成为干扰噪声。
同时,增加记忆会带来显著的计算开销。语义指令型AI从0轮记忆到2轮,每步平均处理时间从5.5秒增至8.6秒;直接操控型则从7.2秒增至12.8秒。这表明,记忆并非免费午餐,在实际应用中需要仔细权衡其带来的收益与成本。
十、指令遵循率:揭示AI的“健忘症”问题
另一个关键指标是“无效动作率”,即AI发出的、因不符合游戏规则而无法执行的动作所占比例。
结果显示,大多数顶尖模型的无效动作率极低,接近零。但也有例外:例如GLM-4.6V的无效动作率高达8.3%,主要问题在于其输出了自然语言指令而非规定的工具调用格式;Qwen3-VL-30B-A3B则有2.7%的无效动作,主要是在长时间交互后“忘记”了当前游戏允许的动作范围。这些数据揭示了一个实际问题:在长序列交互任务中,模型可能出现“指令漂移”或遗忘约束条件,这是实际部署中必须关注的可靠性问题。
十一、实时版本的启示:速度与精度的平衡
GameWorld-RT(实时版)的测试给出了一个重要启示。在不暂停的实时环境下,思考速度快的小模型与思考更深但速度慢的大模型,最终的整体进度成绩接近(都在33%左右)。这说明在实时约束下,单纯的“快速反应”或“深度思考”都不足以形成绝对优势,真正的挑战在于在有限时间内实现速度与决策质量的平衡。
需要注意的是,实时版的成绩不能与暂停版直接比较,因为两者测试的是不同维度的能力(综合反应 vs. 纯决策质量),互为补充。
十二、AI失败的四种典型模式
通过深入分析失败案例,研究团队归纳出AI在游戏中失败的四种典型模式:
感知错误:AI错误识别了画面信息,误判了障碍物或自身位置,导致后续决策基于错误前提。在画面复杂、信息密集的场景中尤为常见。
执行偏差:AI理解了任务目标,但动作执行出现偏差——跳跃时机不准、按键时长错误、组合键时序混乱。属于“策略正确,执行失误”。
指令偏离:AI在长时间交互后逐渐偏离核心任务目标,开始执行无关动作,或尝试调用不存在的指令,甚至忽略了基本的任务要求。
记忆丢失:AI在多步任务中丢失了关键的历史操作信息,陷入重复循环(例如不断走入同一条死路),无法意识到自己处于无效循环中,更缺乏自我纠正的能力。
这四类失败模式,为未来AI能力的改进指明了清晰的方向:需要进一步提升视觉理解的精度、动作控制的准度、长期记忆的稳定性以及指令遵循的鲁棒性。
结语
归根结底,GameWorld试图回答一个根本性问题:我们当前的人工智能,是否已准备好应对复杂多变的现实世界?目前的答案清晰而审慎:尚未完全准备好,但我们终于拥有了一把能够精确度量其与现实需求之间距离的标尺。
当前最先进的AI模型在游戏中的表现,与一位未经准备的普通人类玩家相比,仍有约22个百分点的进度差距。这一差距既存在于需要毫秒级反应的操控层面,也存在于需要长远眼光的策略规划层面,更存在于经历数十步操作后仍能牢记最终目标的持久记忆层面。
对于广大观察者而言,这项研究意味着:当听闻某个AI“能够玩游戏”时,或许可以进一步追问——它是能够真正理解并完成任务,还是仅仅在进行看似复杂的随机操作?而GameWorld这把标尺,正是为了给这个问题提供一个清晰、客观、可重复验证的答案而存在的。
常见问题解答 (Q&A)
Q1:GameWorld基准测试与其他AI游戏测试平台的核心区别是什么?
最核心的区别在于其客观、可复现的评分体系。GameWorld不依赖截图识别或另一个AI模型进行主观评分,而是通过直接读取游戏源代码内部的状态数据(如得分、坐标、物品数量)来评分,结果完全确定且可重现。此外,其独特的“沙盒暂停”机制将AI的思考速度与决策质量分离评估,确保了测试的公平性,避免了反应速度快的模型天然占优。
Q2:在GameWorld中,哪类游戏对AI的挑战最大?
模拟经营类游戏对几乎所有参与测试的AI模型都是最大的挑战。这类游戏要求AI同时协调多个相互关联的目标、进行有效的资源管理,并在长达数十步的操作序列中始终保持最初的战略方向。测试数据显示,大多数模型在猴子超市、Minecraft克隆版等游戏上的成功率接近零,进度得分也普遍偏低。
Q3:GameWorld测试涵盖了哪些AI模型?开源模型的表现如何?
测试涵盖了包括Claude、Gemini、GPT-5.2、Grok、Kimi在内的主流商业模型,以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款开源模型。开源模型的总体进度得分在30%至31%之间,低于表现最佳的商业模型约10个百分点。但经过10轮重复测试验证,其成绩波动标准差在1.1%以内,表现出了良好的稳定性和可重现性。
相关攻略
当电影特效和虚拟现实技术日益融入我们的生活,一项来自新加坡国立大学与百度的联合研究,正在悄然重塑视频内容创作的边界。这项于2026年4月发表在arXiv预印本平台(编号:arXiv:2604 01043v1)的研究,提出了名为“ONE-SHOT”的创新框架。它的核心目标,是让计算机具备“导演”般的洞
这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究,发表于2026年,论文编号为arXiv:2604 02288v1。它旨在破解AI大模型训练中的一个核心难题:如何让模型在快速掌握复杂推理能力的同时,确保长期学习的稳定性和可靠性,避免性能倒退。 将AI训练类比为教学
如何科学评估人工智能的研究能力?这已成为当前AI发展的核心挑战。传统评测方法往往只关注最终输出结果,却忽视了研究过程本身,如同仅凭一份报告来评判研究员水平,显然无法全面衡量AI的真实研究潜力。 2026年3月,一项突破性研究为此带来了转机。新加坡国立大学MiroMind团队联合南洋理工大学学者,在a
这项由新加坡南洋理工大学S-Lab实验室主导的突破性研究,于2026年3月在arXiv预印本平台发布,标志着人工智能在三维场景理解领域取得了一次“顿悟式”的飞跃。该系统仅凭一张静态图像,就能像经验丰富的机械工程师一样,精准解析物体的内部构造与动态运动机制。 设想这样一个场景:当你看到一张办公椅的照片
还记得小时候玩过的“找球游戏”吗?把一个小球扣在三个杯子中的一个下面,快速移动后让你猜球在哪里。这个对人类甚至一些动物都轻而易举的游戏,最近却让一群顶尖的AI模型栽了大跟头。 新加坡国立大学的研究团队在2026年3月发布了一项研究,直指当前最先进视觉语言模型的一个核心软肋:它们几乎无法像人类一样,可
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





