香港中文大学研究：AI造游戏最强模型仅答对四成

时间：2026-06-20 14:18

香港中文大学等机构联合研究搭建GameCraft-Bench平台，测试七种AI编程助手从零生成完整游戏的能力。结果显示，最高分仅41 46%，多数低于40分。AI能搭建可运行的游戏骨架，但在内容丰富度、美术呈现和任务完整性上差距显著。

香港中文大学（深圳）、深圳鹏城湾区研究院、腾讯混元团队、北京科技大学、上海交通大学、南洋理工大学等多家机构携手开展的一项研究，于2026年6月以预印本形式发布（论文编号arXiv:2606.17861），深入探讨了一个极具挑战性的议题：人工智能究竟是否能够从零开始，独立开发出一款完整且可玩的游戏？

试想一下，你只需向AI下达指令：“我需要一个像素风格的横版跳跃游戏，玩家要收集金币并躲避敌人。”几分钟后，一个真正能够运行的游戏便展现在你面前——这一幕正逐渐从幻想走向现实。然而，现实是否真如想象中那样美好？这群研究人员决定进行一次严谨的测试与评估。

他们搭建了一个名为GameCraft-Bench的测试平台，专门用于考察当前最顶尖的AI编程助手能否从零开始生成一款完整的游戏。测试结果相当客观：即便表现最佳的AI，在100道测试题中也只能拿到41分多一点。大多数AI的得分徘徊在40分以下，有的甚至仅得2分。这并非程序出现错误，而是AI在“游戏开发”这一领域，确实还有很长的路要走。

一、为什么开发游戏是一道极具挑战的难题

要理解这个问题的复杂性，必须先明白游戏与普通软件之间本质区别。编写一个计算器程序，只要输入正确、输出正确，任务就算完成。但游戏截然不同——它必须是“生动”的。玩家按下空格键，角色要跳跃；碰撞到敌人，血量需减少；收集金币，界面数字要随之更新；击败最终Boss，胜利画面必须呈现。

换句话说，游戏的核心在于“交互”。不仅是代码看起来正确，更要确保玩家上手后真的能玩，并且玩的过程中有反馈、有进展、有挑战。正因如此，研究团队认为，评判AI能否制作游戏，必须同时满足三个条件，缺一不可。

第一个条件是“在真实的游戏引擎中开发”。什么是真实的游戏引擎？可以将其理解为游戏的“操作系统”，就像手机需要安卓或iOS才能运行应用一样，游戏也需要专门的引擎来处理物理碰撞、画面渲染、声音播放、场景切换等复杂功能。如果只是在网页上编写一段简单代码，那充其量是在玩具沙盘里拼凑积木，距离真正的游戏开发还相差甚远。研究团队选择了Godot这款开源引擎作为测试环境，因为它免费开源、轻量级，且支持命令行操作，非常适合大规模的自动化测试。而Unity或虚幻引擎则因安装复杂、授权限制等原因，不太适用于此类场景。

第二个条件是“交付一个完整的游戏项目”。AI不能只写几段代码，然后说“剩下的你自己组装”。一款完整游戏需要场景文件、脚本、图片素材、UI界面、输入设置、配置文件等要素，这些必须全部就位，且能够直接运行。研究团队将此称为“工件完整性”。只要游戏无法直接启动，得分直接清零，没有任何商量余地。

第三个条件是“通过真实互动进行验证”。这是最关键且最具创新性的一项。评价一款游戏好不好，不能仅看代码是否漂亮，也不能只截取静态画面，必须真正“玩”起来，观察玩家按下按键后游戏是否做出正确反应。研究团队的做法是：让AI在提交游戏的同时，也提交一套“操作录像”——一组记录了鼠标点击、键盘输入时间轴的JSON文件。系统会自动重放这些操作，录制下游戏画面，再由一个多模态AI裁判观看视频后打分。

这三个条件组合在一起，构成了目前最严格、最贴近真实游戏开发要求的AI评测框架。

二、这场考试的具体内容是什么

GameCraft-Bench一共包含140道测试题，分属15个游戏类别。其中，横版跳跃游戏有19道，策略游戏有17道，经营模拟类有16道，开放世界有15道，Roguelike有14道，视觉小说有11道……此外还涵盖了益智解谜、射击、体育、卡牌、恐怖、音乐节奏、休闲放置、赛车等类别，几乎将主流游戏类型全部覆盖。

每道测试题都包含三层内容。AI能看到的一份“游戏说明书”，以自然语言书写，风格类似真实的游戏策划文档——它会告诉AI要做一款什么感觉的游戏、核心玩法是什么、玩家会经历什么、视觉风格应如何呈现，但不会告知AI具体实现方法。AI看不到的是一份评分标准，由12位经验丰富的游戏标注员撰写，从核心机制、内容丰富度、画面功能性、美术呈现四个维度，详细列出可观察的评分要点。

为确保每道题目设计合理，每位标注员在写完说明书和评分标准后，还必须亲自在Godot引擎中编写一个简单的“验证版本”——不需要多美观，但必须能运行，且能通过回放演示展示所有评分要点。如果写不出来，说明题目本身有问题，需要修改直到能够实现为止。这一环节保证了每道题目对AI来说是公平且可完成的。

AI接到任务后，有两小时时间在配备了Godot引擎和素材库的工作区自由发挥。它可以编写代码、运行游戏、截图查看效果、根据运行结果修改代码——不限制工具调用次数，只要在规定时间内交卷即可。最终提交物是一个完整的Godot项目，加上一到十个操作录像文件。

评分时，系统先检查游戏能否启动。若启动失败，直接得0分。若能启动，系统将按照提交的操作录像重放游戏，录制视频，每0.5秒截取一帧画面，然后将这些画面与评分标准一起输入GPT-5.5多模态AI裁判进行评分。裁判针对每一条标准给出0到1之间的分数，最后按加权公式汇总成最终得分。其中，“内容丰富度”和“美术呈现”各占35%的权重，“核心机制”和“画面功能性”各占15%，这是因为团队认为一款真正完整的游戏不仅需要逻辑正确，还必须具备足够的内容量和视觉品质。

三、七位选手登场，成绩令人意外

测试覆盖了七个当前最强的AI编程助手配置。参与测试的包括：Anthropic公司的Claude Code搭配Opus-4.7和MiMo-V2.5-Pro两种模型，OpenAI的Codex搭配GPT-5.5和DeepSeek-V4-Pro，Kimi Code搭配Kimi-K2.6，以及Code Buddy搭配GLM-5.1和MiniMax-M2.7。每个配置都在全部140道题目上运行一遍，条件完全相同。

成绩单如下：Claude Code搭配Opus-4.7在“高配”模式下以41.46%的总分位居第一，GPT-5.5高配紧随其后，得分为39.49%，Kimi-K2.6拿到30.65%，MiMo-V2.5-Pro获得24.10%，GLM-5.1得到18.29%，MiniMax-M2.7取得10.95%，而DeepSeek-V4-Pro仅有2.15%。

前两名的差距其实非常小，但从第三名开始就出现了明显的落差。DeepSeek-V4-Pro的情况较为特殊：它的游戏启动成功率仅为25.6%，远低于其他选手的90%以上，意味着它提交的大多数游戏项目根本无法运行，自然得分极低。此外，DeepSeek-V4-Pro还经常忽略提交操作录像的要求，导致即使游戏能够启动，也因没有回放文件而无法打分。

从各维度来看，存在一个一致的规律：所有AI在“核心机制”这一维度的得分都明显高于其他三个维度。以Opus-4.7为例，其核心机制得分为55.34%，内容丰富度为39.48%，画面功能性为42.78%，美术呈现为36.86%。Kimi-K2.6的核心机制是39.76%，而美术呈现只有27.99%。这一规律表明：AI通常能够搭建出一个“可运行”的游戏框架，但很难将其填充成一个内容丰富、颜值在线、体验完整的真正游戏。

四、成功的关键：善于观察画面才能调出好游戏

研究团队在分析各AI的工作方式时，发现了一个有趣的现象：那些愿意频繁截图、用眼睛观察游戏实际表现效果的AI，往往最终产出的游戏质量更高。

Kimi-K2.6在140道题目的作答过程中，共调用截图工具2998次，平均每道题截取21.41张图片，只有4道题全程没有截图。Opus-4.7截图1952次，平均每道题13.94次。相比之下，GPT-5.5仅截图268次，平均每道题不到2次。

为什么截图如此重要？因为很多问题在代码层面根本无法察觉，必须实际渲染出游戏画面后才能发现。例如，摄像机框错位、UI界面文字重叠、场景中的碰撞体与视觉图形不匹配等——这些问题如果仅看代码，可能一切正常，但一旦截图，破绽便会立刻显现。

研究团队举了Kimi-K2.6开发策略游戏的例子：Kimi反复截图，发现了单位摆放位置偏差、选中高亮未显示、网格布局错误等问题，并据此逐一修正，最终制作出了一款具有相当视觉辨识度的深色幻想风格战棋游戏。从初始截图到最终版本，可以明显看到游戏品质在“观察-修改-再观察-再修改”的循环中稳步提升。

五、失败的陷阱：代码写得越多≠游戏做得越好

MiMo-V2.5-Pro提供了另一个角度的启示。这个AI有一个明显的工作习惯：先用极快的速度将所有文件全部写完——包括project.godot、所有GDScript脚本、所有场景文件——然后再进入漫长的调试循环。问题在于，它的调试工具中有56.3%是Shell命令（即在命令行中运行各种调试指令），而真正用于读取代码和修改代码的操作仅占16.5%。

研究团队统计发现，MiMo-V2.5-Pro平均每道题使用了128次工具调用，但工具调用次数与最终得分之间的相关系数仅为可怜的+0.016——这意味着调用工具越多并不等于游戏做得越好，两者几乎毫无关联。

更有趣的是，MiMo-V2.5-Pro有5道题得了0分，但这5道题的游戏全部成功启动了。问题出在哪里？在于没有提交操作录像。游戏虽然做好了，却忘记告诉评分系统“应该如何玩”，导致评分系统无从打分，全部归零。这纯粹是“任务完成意识”的缺失，与编程能力完全无关——更像是一个学生做完了试卷却忘记写名字，白白丢失分数。

六、裁判可靠吗？人类和AI打分差距有多大

既然评分是由AI裁判完成的，那么裁判本身是否可靠就成为一个值得认真检验的问题。研究团队进行了两个验证实验。

第一个实验检验“稳定性”：固定同一批游戏录像和评分标准，让GPT-5.5裁判重复打分10次，观察每次分数是否一致。结果非常稳定：Kimi-K2.6在卡牌游戏类别上的标准差仅为0.0037，在模拟游戏上为0.0038，Opus-4.7的标准差分别为0.0050和0.0036。这些波动幅度远小于不同AI之间的得分差距，说明排名结果是可信的，不会因裁判“发挥失常”而颠倒。

第二个实验检验“与人类的一致性”：研究人员邀请人类评分员，对Kimi-K2.6提交的卡牌游戏、休闲放置游戏、赛车游戏三个类别的录像进行独立评分，然后与AI裁判的打分进行对比。总体来看，AI裁判比人类评分更宽松一些，综合偏差约为3.32个百分点。细分来看，AI裁判在“内容丰富度”和“美术呈现”两个维度上打分高于人类，而在“画面功能性”上比人类更为严格。其中差距最大的是休闲放置游戏，AI裁判高出人类8.76个百分点，说明在内容深度和视觉呈现的判断上，AI裁判的标准仍有进一步校准的空间。

七、四个维度是独立还是相互关联？

研究团队还希望探讨一个问题：核心机制、内容丰富度、画面功能性、美术呈现这四个评分维度，是否高度捆绑——即一项优秀，其他自然也会优秀？

以Kimi-K2.6的数据来看，核心机制与内容丰富度之间的相关系数为0.61，核心机制与画面功能性之间为0.53——说明这两组之间确实存在一定联系，通常一个游戏的交互循环做得越好，其游戏状态信息和视觉反馈也往往更丰富。但美术呈现与画面功能性之间的相关系数仅为0.11，几乎毫无关联——换句话说，一个游戏是否“容易理解”与其是否“美观”，基本上是两件完全独立的事情。

MiMo-V2.5-Pro的数据格局略有不同，其四个维度之间的整体耦合度更高，美术呈现与核心机制的相关系数达到0.56，但与画面功能性之间也仅为0.26。这一结论对AI开发者而言极具参考价值：若要全面提升AI的游戏生成能力，不能仅针对单一维度进行优化，因为这四种能力并不会自动相互促进，需要分别有针对性地加以提升。

八、不同游戏类型，AI的表现差距有多大

最后一块拼图是不同游戏类型的表现差异。以Opus-4.7为例，它在恐怖游戏类别上得分为57.30，在休闲放置类上得分为56.99，在音乐节奏类得分为46.57，在赛车类得分为45.26，在横版跳跃游戏类得分为36.57，在卡牌游戏类仅为33.78。GPT-5.5在休闲放置类得分为64.91，在恐怖类得分为49.05，在卡牌类仅为25.50。

这些差距背后存在一定规律。休闲放置和恐怖游戏的得分普遍较高，可能是因为这两类游戏的核心机制相对简单（前者是点击升级，后者是探索叙事），AI较容易实现。而卡牌游戏涉及复杂的规则逻辑和状态管理，横版跳跃游戏需要精确的物理碰撞和关卡设计，这些对AI而言是更大的挑战。

从这些数据可以看出，AI在处理不同复杂度的游戏类型时，能力差异非常显著，并不存在一种“通用的游戏生成能力”，而是在某些类型上相对擅长，在另一些类型上明显吃力。

归根结底，这项研究传达的信息并非“AI开发游戏完全不行”，而是“AI已经能够搭建出可运行的游戏框架，但距离真正好玩还有很大差距”。就像一个初学者能照着菜谱把菜做熟，但要做到色泽诱人、层次丰富、口感恰到好处，那完全是另一个量级的要求。

41%的最高分意味着，即使是当前最强的AI编程助手，在完整的游戏生成任务上，也还有将近六成的功课需要补足。它们最擅长的是“搭建一个可运行的框架”，最不擅长的是“将这个框架填充成一个有血有肉、有颜有内容的完整体验”。而后者，恰恰是游戏的灵魂所在。

对于普通用户而言，这项研究意味着：如果你现在就想让AI帮你制作一款“随便玩玩”的小游戏，或许已经部分可行；但如果你期望它直接输出一款品质过关的完整游戏，目前最好还是将其视为一个能干的助手，而非独立的游戏开发者。

这里有一个有趣的思考：评分裁判使用的是GPT-5.5，而GPT-5.5同时也是被测试的对象之一。那么，裁判在为自身打分时，是否会有所偏袒？这种“运动员兼裁判”的情况，是未来此类测试需要认真解决的问题之一。有兴趣深入探索这一领域的读者，可以通过arXiv:2606.17861查阅完整论文，网站上也有各类游戏的演示视频和完整数据集。

Q&A

Q1：GameCraft-Bench测试AI开发游戏时使用的是什么游戏引擎，为什么选择它？

A：GameCraft-Bench使用的是Godot 4游戏引擎。选择Godot的原因是它完全开源免费、安装轻便、支持命令行无界面运行，场景文件以文本格式存储便于程序解析，非常适合大规模的自动化测试。虽然Unity和虚幻引擎也支持自动化，但安装复杂且存在授权限制，不适合这种高频评测场景。

Q2：AI在开发游戏时得分低的主要原因是什么？

A：得分低的原因并非单一。最常见的问题包括：游戏虽能启动运行，但内容量不足，缺乏足够的关卡、角色或进度系统；视觉呈现粗糙，大量使用程序生成的纯色方块代替真实美术资源；以及忘记提交操作录像，导致评分系统无法判断游戏是否可玩，最终得零分。

Q3：GameCraft-Bench的评分完全由AI完成吗？人类评分与AI评分差距有多大？

A：评分主要由GPT-5.5多模态AI裁判负责，人类评分仅作为校准参考。研究团队对比了人类和AI裁判在卡牌游戏、休闲放置游戏、赛车游戏三类上的打分，发现AI裁判整体比人类宽松约3.32个百分点，在内容丰富度和美术呈现上偏宽松，在画面功能性上偏严格。

来源：https://www.163.com/dy/article/KVQNQ0L10511DTVV.html

上一篇国产GPU开源生态进入原生支持 SGLang与MUSA Meetup落幕 下一篇英伟达新方法让小模型向大模型学习效果显著

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。