香港中文大学(深圳)、深圳鹏城湾区研究院、腾讯混元团队、北京科技大学、上海交通大学、南洋理工大学等多家机构携手开展的一项研究,于2026年6月以预印本形式发布(论文编号arXiv:2606.17861),深入探讨了一个极具挑战性的议题:人工智能究竟是否能够从零开始,独立开发出一款完整且可玩的游戏?
试想一下,你只需向AI下达指令:“我需要一个像素风格的横版跳跃游戏,玩家要收集金币并躲避敌人。”几分钟后,一个真正能够运行的游戏便展现在你面前——这一幕正逐渐从幻想走向现实。然而,现实是否真如想象中那样美好?这群研究人员决定进行一次严谨的测试与评估。
他们搭建了一个名为GameCraft-Bench的测试平台,专门用于考察当前最顶尖的AI编程助手能否从零开始生成一款完整的游戏。测试结果相当客观:即便表现最佳的AI,在100道测试题中也只能拿到41分多一点。大多数AI的得分徘徊在40分以下,有的甚至仅得2分。这并非程序出现错误,而是AI在“游戏开发”这一领域,确实还有很长的路要走。
一、为什么开发游戏是一道极具挑战的难题
要理解这个问题的复杂性,必须先明白游戏与普通软件之间本质区别。编写一个计算器程序,只要输入正确、输出正确,任务就算完成。但游戏截然不同——它必须是“生动”的。玩家按下空格键,角色要跳跃;碰撞到敌人,血量需减少;收集金币,界面数字要随之更新;击败最终Boss,胜利画面必须呈现。
换句话说,游戏的核心在于“交互”。不仅是代码看起来正确,更要确保玩家上手后真的能玩,并且玩的过程中有反馈、有进展、有挑战。正因如此,研究团队认为,评判AI能否制作游戏,必须同时满足三个条件,缺一不可。
第一个条件是“在真实的游戏引擎中开发”。什么是真实的游戏引擎?可以将其理解为游戏的“操作系统”,就像手机需要安卓或iOS才能运行应用一样,游戏也需要专门的引擎来处理物理碰撞、画面渲染、声音播放、场景切换等复杂功能。如果只是在网页上编写一段简单代码,那充其量是在玩具沙盘里拼凑积木,距离真正的游戏开发还相差甚远。研究团队选择了Godot这款开源引擎作为测试环境,因为它免费开源、轻量级,且支持命令行操作,非常适合大规模的自动化测试。而Unity或虚幻引擎则因安装复杂、授权限制等原因,不太适用于此类场景。
第二个条件是“交付一个完整的游戏项目”。AI不能只写几段代码,然后说“剩下的你自己组装”。一款完整游戏需要场景文件、脚本、图片素材、UI界面、输入设置、配置文件等要素,这些必须全部就位,且能够直接运行。研究团队将此称为“工件完整性”。只要游戏无法直接启动,得分直接清零,没有任何商量余地。
第三个条件是“通过真实互动进行验证”。这是最关键且最具创新性的一项。评价一款游戏好不好,不能仅看代码是否漂亮,也不能只截取静态画面,必须真正“玩”起来,观察玩家按下按键后游戏是否做出正确反应。研究团队的做法是:让AI在提交游戏的同时,也提交一套“操作录像”——一组记录了鼠标点击、键盘输入时间轴的JSON文件。系统会自动重放这些操作,录制下游戏画面,再由一个多模态AI裁判观看视频后打分。
这三个条件组合在一起,构成了目前最严格、最贴近真实游戏开发要求的AI评测框架。
二、这场考试的具体内容是什么
GameCraft-Bench一共包含140道测试题,分属15个游戏类别。其中,横版跳跃游戏有19道,策略游戏有17道,经营模拟类有16道,开放世界有15道,Roguelike有14道,视觉小说有11道……此外还涵盖了益智解谜、射击、体育、卡牌、恐怖、音乐节奏、休闲放置、赛车等类别,几乎将主流游戏类型全部覆盖。
每道测试题都包含三层内容。AI能看到的一份“游戏说明书”,以自然语言书写,风格类似真实的游戏策划文档——它会告诉AI要做一款什么感觉的游戏、核心玩法是什么、玩家会经历什么、视觉风格应如何呈现,但不会告知AI具体实现方法。AI看不到的是一份评分标准,由12位经验丰富的游戏标注员撰写,从核心机制、内容丰富度、画面功能性、美术呈现四个维度,详细列出可观察的评分要点。
为确保每道题目设计合理,每位标注员在写完说明书和评分标准后,还必须亲自在Godot引擎中编写一个简单的“验证版本”——不需要多美观,但必须能运行,且能通过回放演示展示所有评分要点。如果写不出来,说明题目本身有问题,需要修改直到能够实现为止。这一环节保证了每道题目对AI来说是公平且可完成的。
AI接到任务后,有两小时时间在配备了Godot引擎和素材库的工作区自由发挥。它可以编写代码、运行游戏、截图查看效果、根据运行结果修改代码——不限制工具调用次数,只要在规定时间内交卷即可。最终提交物是一个完整的Godot项目,加上一到十个操作录像文件。
评分时,系统先检查游戏能否启动。若启动失败,直接得0分。若能启动,系统将按照提交的操作录像重放游戏,录制视频,每0.5秒截取一帧画面,然后将这些画面与评分标准一起输入GPT-5.5多模态AI裁判进行评分。裁判针对每一条标准给出0到1之间的分数,最后按加权公式汇总成最终得分。其中,“内容丰富度”和“美术呈现”各占35%的权重,“核心机制”和“画面功能性”各占15%,这是因为团队认为一款真正完整的游戏不仅需要逻辑正确,还必须具备足够的内容量和视觉品质。
三、七位选手登场,成绩令人意外
测试覆盖了七个当前最强的AI编程助手配置。参与测试的包括:Anthropic公司的Claude Code搭配Opus-4.7和MiMo-V2.5-Pro两种模型,OpenAI的Codex搭配GPT-5.5和DeepSeek-V4-Pro,Kimi Code搭配Kimi-K2.6,以及Code Buddy搭配GLM-5.1和MiniMax-M2.7。每个配置都在全部140道题目上运行一遍,条件完全相同。
成绩单如下:Claude Code搭配Opus-4.7在“高配”模式下以41.46%的总分位居第一,GPT-5.5高配紧随其后,得分为39.49%,Kimi-K2.6拿到30.65%,MiMo-V2.5-Pro获得24.10%,GLM-5.1得到18.29%,MiniMax-M2.7取得10.95%,而DeepSeek-V4-Pro仅有2.15%。
前两名的差距其实非常小,但从第三名开始就出现了明显的落差。DeepSeek-V4-Pro的情况较为特殊:它的游戏启动成功率仅为25.6%,远低于其他选手的90%以上,意味着它提交的大多数游戏项目根本无法运行,自然得分极低。此外,DeepSeek-V4-Pro还经常忽略提交操作录像的要求,导致即使游戏能够启动,也因没有回放文件而无法打分。
从各维度来看,存在一个一致的规律:所有AI在“核心机制”这一维度的得分都明显高于其他三个维度。以Opus-4.7为例,其核心机制得分为55.34%,内容丰富度为39.48%,画面功能性为42.78%,美术呈现为36.86%。Kimi-K2.6的核心机制是39.76%,而美术呈现只有27.99%。这一规律表明:AI通常能够搭建出一个“可运行”的游戏框架,但很难将其填充成一个内容丰富、颜值在线、体验完整的真正游戏。
四、成功的关键:善于观察画面才能调出好游戏
研究团队在分析各AI的工作方式时,发现了一个有趣的现象:那些愿意频繁截图、用眼睛观察游戏实际表现效果的AI,往往最终产出的游戏质量更高。
Kimi-K2.6在140道题目的作答过程中,共调用截图工具2998次,平均每道题截取21.41张图片,只有4道题全程没有截图。Opus-4.7截图1952次,平均每道题13.94次。相比之下,GPT-5.5仅截图268次,平均每道题不到2次。
为什么截图如此重要?因为很多问题在代码层面根本无法察觉,必须实际渲染出游戏画面后才能发现。例如,摄像机框错位、UI界面文字重叠、场景中的碰撞体与视觉图形不匹配等——这些问题如果仅看代码,可能一切正常,但一旦截图,破绽便会立刻显现。
研究团队举了Kimi-K2.6开发策略游戏的例子:Kimi反复截图,发现了单位摆放位置偏差、选中高亮未显示、网格布局错误等问题,并据此逐一修正,最终制作出了一款具有相当视觉辨识度的深色幻想风格战棋游戏。从初始截图到最终版本,可以明显看到游戏品质在“观察-修改-再观察-再修改”的循环中稳步提升。
五、失败的陷阱:代码写得越多≠游戏做得越好
MiMo-V2.5-Pro提供了另一个角度的启示。这个AI有一个明显的工作习惯:先用极快的速度将所有文件全部写完——包括project.godot、所有GDScript脚本、所有场景文件——然后再进入漫长的调试循环。问题在于,它的调试工具中有56.3%是Shell命令(即在命令行中运行各种调试指令),而真正用于读取代码和修改代码的操作仅占16.5%。
研究团队统计发现,MiMo-V2.5-Pro平均每道题使用了128次工具调用,但工具调用次数与最终得分之间的相关系数仅为可怜的+0.016——这意味着调用工具越多并不等于游戏做得越好,两者几乎毫无关联。
更有趣的是,MiMo-V2.5-Pro有5道题得了0分,但这5道题的游戏全部成功启动了。问题出在哪里?在于没有提交操作录像。游戏虽然做好了,却忘记告诉评分系统“应该如何玩”,导致评分系统无从打分,全部归零。这纯粹是“任务完成意识”的缺失,与编程能力完全无关——更像是一个学生做完了试卷却忘记写名字,白白丢失分数。
六、裁判可靠吗?人类和AI打分差距有多大
既然评分是由AI裁判完成的,那么裁判本身是否可靠就成为一个值得认真检验的问题。研究团队进行了两个验证实验。
第一个实验检验“稳定性”:固定同一批游戏录像和评分标准,让GPT-5.5裁判重复打分10次,观察每次分数是否一致。结果非常稳定:Kimi-K2.6在卡牌游戏类别上的标准差仅为0.0037,在模拟游戏上为0.0038,Opus-4.7的标准差分别为0.0050和0.0036。这些波动幅度远小于不同AI之间的得分差距,说明排名结果是可信的,不会因裁判“发挥失常”而颠倒。
第二个实验检验“与人类的一致性”:研究人员邀请人类评分员,对Kimi-K2.6提交的卡牌游戏、休闲放置游戏、赛车游戏三个类别的录像进行独立评分,然后与AI裁判的打分进行对比。总体来看,AI裁判比人类评分更宽松一些,综合偏差约为3.32个百分点。细分来看,AI裁判在“内容丰富度”和“美术呈现”两个维度上打分高于人类,而在“画面功能性”上比人类更为严格。其中差距最大的是休闲放置游戏,AI裁判高出人类8.76个百分点,说明在内容深度和视觉呈现的判断上,AI裁判的标准仍有进一步校准的空间。
七、四个维度是独立还是相互关联?
研究团队还希望探讨一个问题:核心机制、内容丰富度、画面功能性、美术呈现这四个评分维度,是否高度捆绑——即一项优秀,其他自然也会优秀?
以Kimi-K2.6的数据来看,核心机制与内容丰富度之间的相关系数为0.61,核心机制与画面功能性之间为0.53——说明这两组之间确实存在一定联系,通常一个游戏的交互循环做得越好,其游戏状态信息和视觉反馈也往往更丰富。但美术呈现与画面功能性之间的相关系数仅为0.11,几乎毫无关联——换句话说,一个游戏是否“容易理解”与其是否“美观”,基本上是两件完全独立的事情。
MiMo-V2.5-Pro的数据格局略有不同,其四个维度之间的整体耦合度更高,美术呈现与核心机制的相关系数达到0.56,但与画面功能性之间也仅为0.26。这一结论对AI开发者而言极具参考价值:若要全面提升AI的游戏生成能力,不能仅针对单一维度进行优化,因为这四种能力并不会自动相互促进,需要分别有针对性地加以提升。
八、不同游戏类型,AI的表现差距有多大
最后一块拼图是不同游戏类型的表现差异。以Opus-4.7为例,它在恐怖游戏类别上得分为57.30,在休闲放置类上得分为56.99,在音乐节奏类得分为46.57,在赛车类得分为45.26,在横版跳跃游戏类得分为36.57,在卡牌游戏类仅为33.78。GPT-5.5在休闲放置类得分为64.91,在恐怖类得分为49.05,在卡牌类仅为25.50。
这些差距背后存在一定规律。休闲放置和恐怖游戏的得分普遍较高,可能是因为这两类游戏的核心机制相对简单(前者是点击升级,后者是探索叙事),AI较容易实现。而卡牌游戏涉及复杂的规则逻辑和状态管理,横版跳跃游戏需要精确的物理碰撞和关卡设计,这些对AI而言是更大的挑战。
从这些数据可以看出,AI在处理不同复杂度的游戏类型时,能力差异非常显著,并不存在一种“通用的游戏生成能力”,而是在某些类型上相对擅长,在另一些类型上明显吃力。
归根结底,这项研究传达的信息并非“AI开发游戏完全不行”,而是“AI已经能够搭建出可运行的游戏框架,但距离真正好玩还有很大差距”。就像一个初学者能照着菜谱把菜做熟,但要做到色泽诱人、层次丰富、口感恰到好处,那完全是另一个量级的要求。
41%的最高分意味着,即使是当前最强的AI编程助手,在完整的游戏生成任务上,也还有将近六成的功课需要补足。它们最擅长的是“搭建一个可运行的框架”,最不擅长的是“将这个框架填充成一个有血有肉、有颜有内容的完整体验”。而后者,恰恰是游戏的灵魂所在。
对于普通用户而言,这项研究意味着:如果你现在就想让AI帮你制作一款“随便玩玩”的小游戏,或许已经部分可行;但如果你期望它直接输出一款品质过关的完整游戏,目前最好还是将其视为一个能干的助手,而非独立的游戏开发者。
这里有一个有趣的思考:评分裁判使用的是GPT-5.5,而GPT-5.5同时也是被测试的对象之一。那么,裁判在为自身打分时,是否会有所偏袒?这种“运动员兼裁判”的情况,是未来此类测试需要认真解决的问题之一。有兴趣深入探索这一领域的读者,可以通过arXiv:2606.17861查阅完整论文,网站上也有各类游戏的演示视频和完整数据集。
Q&A
Q1:GameCraft-Bench测试AI开发游戏时使用的是什么游戏引擎,为什么选择它?
A:GameCraft-Bench使用的是Godot 4游戏引擎。选择Godot的原因是它完全开源免费、安装轻便、支持命令行无界面运行,场景文件以文本格式存储便于程序解析,非常适合大规模的自动化测试。虽然Unity和虚幻引擎也支持自动化,但安装复杂且存在授权限制,不适合这种高频评测场景。
Q2:AI在开发游戏时得分低的主要原因是什么?
A:得分低的原因并非单一。最常见的问题包括:游戏虽能启动运行,但内容量不足,缺乏足够的关卡、角色或进度系统;视觉呈现粗糙,大量使用程序生成的纯色方块代替真实美术资源;以及忘记提交操作录像,导致评分系统无法判断游戏是否可玩,最终得零分。
Q3:GameCraft-Bench的评分完全由AI完成吗?人类评分与AI评分差距有多大?
A:评分主要由GPT-5.5多模态AI裁判负责,人类评分仅作为校准参考。研究团队对比了人类和AI裁判在卡牌游戏、休闲放置游戏、赛车游戏三类上的打分,发现AI裁判整体比人类宽松约3.32个百分点,在内容丰富度和美术呈现上偏宽松,在画面功能性上偏严格。
