Claude 3.7控马里奥90秒，GPT-4o开局暴毙，Karpathy称基准失效，游戏成LLM评估工具

时间：2026-06-26 16:46

经典游戏成AI评估新方向。UCSD团队开源GamingAgent，测试中Claude3 7在《超级马里奥》中撑满90秒并发现隐藏奖励，而GPT-4o和Gemini表现不佳。游戏或成为LLM评估新基准。

Karpathy提出深刻疑问：评估AI性能，究竟应该关注哪些核心指标？或许答案就隐藏在我们耳熟能详的经典游戏中。最近，UCSD的Hao AI Lab推出了一项创新研究，利用《超级马里奥》这类游戏来测试AI智能体，结果显示Claude 3.7的表现令人瞩目。

LLM评估基准的“黄金标准”，是否正在逐渐失效？

清晨时分，AI领域的大神Karpathy抛出了一个尖锐的问题：“目前存在评估危机，我真的不知道该关注哪些指标才合适。”这番话听起来有些极端，但并非毫无根据。

像MMLU、SWE-Bench Verified、Chatbot Arena等基准测试，各自都存在明显的局限性。如果这些传统指标都不够可靠，那么游戏能否成为衡量AI能力的新标尺？

不要忘记，当年AlphaGo在围棋领域一战成名；OpenAI早期也涉足游戏领域，用自研AI在DOTA国际比赛中取得了亮眼成绩。最近，Claude 3.7的发布更让《宝可梦》成为了LLM评测的新标杆。

这一次，UCSD的Hao AI Lab再次发力，开源了一款全新的“游戏智能体”——GamingAgent。它能够让计算机使用智能体（CUA）实时运行解谜、益智等多种类型的游戏。

测试结果颇具戏剧性：Claude 3.7 Sonnet在玩《超级马里奥》时撑满了90秒，将OpenAI、Gemini以及自家的前辈远远甩在身后。而GPT-4o呢？一上来就直接“阵亡”了。

谷歌的Gemini 1.5 Pro首战即败，而且失败的方式很有规律——每走两步就跳一次。到了Gemini 2.0，虽然多走了几步，最终还是掉进了坑里。

目前，GamingAgent的项目代码已经开源，下载安装后就能实时观看这场AI游戏大对决。

GPT-4.5反应迟钝，GPT-4o永远被第一个小怪击败

GPT-4o的表现就像那种操作笨拙、常被队友吐槽的“游戏菜鸟”。每次都是被第一个小怪消灭，游戏在短短20秒内就宣告结束。

相比之下，GPT-4.5算是有所进步，至少没有在第一个小怪那里倒下。

但它的反应依然迟缓，几乎是两步一停。在跳过矮水管之前还要犹豫半天，感觉就像刚学会游戏操作，还在蹒跚学步。

面对一个稍高的水管，它尝试了7次，足足花了10秒才跳过去。

好不容易跳过去了，结果一头撞上小怪，第一回合就此终结。

更有趣的是，第二回合GPT-4.5又栽在了第一个小怪那里——毕竟和GPT-4o同属OpenAI家族，操作水平都差不多（开个玩笑）。

第三回合表现依旧平平，甚至不如第一回合。在第一个矮水管处卡了半天，在水管底下磨蹭了近10秒才想起跳跃。

最后虽然顺利跳过了第二个水管，但还是被小怪击杀，走的路程还不如第一回合远——第一回合至少跳过了第三个水管，虽说刚跳过就被杀了。

Gemini 1.5两步一跳，2.0栽进坑里

再看谷歌这边，Gemini 1.5 Pro首战同样不顺，没能躲过第一个小怪的追击。

第二回合，Gemini 1.5总算避开了第一个小怪，甚至还碰到了问号箱，吃到了蘑菇。

有趣的是，和GPT-4.5的两步一停不同，Gemini 1.5是“两步一跳”。走了这么一小段路，一共跳了9回——地板上跳，水管上也跳。

最后它跳过了第三根水管，甚至差点跳过第四根，走得比GPT-4.5要远一些。

至于更新的Gemini 2.0 Flash，表现上不出意外地好得多。首先，跳跃更大胆；其次，动作也更流畅。它跳到了“前人”未曾涉足的更高平台，而且10秒内就轻松越过了前面三个水管。

虽然第二回合时也惨遭第一个小怪的毒手。

但最终它走得比OpenAI家族和Gemini 1.5都远——跳过了第四根水管，栽倒在一个没能跨过的坑中。

Claude 3.7 Sonnet发现隐藏奖励

相比之下，Anthropic的Claude表现就惊艳多了。

相比于Gemini两步一跳的操作，Claude 3.7的动作更加流畅，走得也远得多。尤其是在跳跃时机的把握上，显得更有章法——碰到水管、遇到坑才跳跃。

此外，它还会有意识地通过跳跃来躲避小怪。

它跳过了Gemini 2.0 Flash两回合都没能跃过的坑，Claude操控下的马里奥终于吃到了金币；终于碰到了除了哥布林（形似蘑菇）之外的小怪——库巴（形似乌龟）；甚至还触发了隐藏奖励——超级星星。

最后，它是掉到了阶梯平台之间的坑里，结束了这一轮游戏。

AI大战2048益智游戏，GPT-4o拿不出手

接下来，再看一个益智类游戏——2048。很多人可能不太熟悉这款游戏，规则很简单：通过滑动进行拼图，将相同数字的方块合并，达到尽可能高的数值。

GPT-4o在挑战过程中，因为思考时间过长，直接陷入了困境。而Claude 3.7虽然多走了几步，比GPT-4o强不少，但最终还是以失败告终。

俄罗斯方块，智商在线

那么Claude 3.7玩《俄罗斯方块》的表现又如何呢？

Anthropic的开发者关系负责人Alex Albert称赞道：“非常酷！我们需要把每一款电子游戏都变成一种评估工具。”

已经有网友在评论区许愿，让Grok 3也加入战场。看来，LLM评估即将开辟一条全新的道路。

来源：https://www.aiagiai.com/9054.html

上一篇DeepMind强化学习新突破《我的世界》AI超越人类 下一篇NYU教授震怒警告：孩子不学编程只会葬送美国未来

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略，在大模型的内容采信规则下已经基本失效。取而代之的，是生成式引擎优化（GEO）。它不再关注外链数量，而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG（检索增强生成）架构真正看重的核心指