Karpathy提出深刻疑问:评估AI性能,究竟应该关注哪些核心指标?或许答案就隐藏在我们耳熟能详的经典游戏中。最近,UCSD的Hao AI Lab推出了一项创新研究,利用《超级马里奥》这类游戏来测试AI智能体,结果显示Claude 3.7的表现令人瞩目。
LLM评估基准的“黄金标准”,是否正在逐渐失效?
清晨时分,AI领域的大神Karpathy抛出了一个尖锐的问题:“目前存在评估危机,我真的不知道该关注哪些指标才合适。”这番话听起来有些极端,但并非毫无根据。

像MMLU、SWE-Bench Verified、Chatbot Arena等基准测试,各自都存在明显的局限性。如果这些传统指标都不够可靠,那么游戏能否成为衡量AI能力的新标尺?
不要忘记,当年AlphaGo在围棋领域一战成名;OpenAI早期也涉足游戏领域,用自研AI在DOTA国际比赛中取得了亮眼成绩。最近,Claude 3.7的发布更让《宝可梦》成为了LLM评测的新标杆。
这一次,UCSD的Hao AI Lab再次发力,开源了一款全新的“游戏智能体”——GamingAgent。它能够让计算机使用智能体(CUA)实时运行解谜、益智等多种类型的游戏。
测试结果颇具戏剧性:Claude 3.7 Sonnet在玩《超级马里奥》时撑满了90秒,将OpenAI、Gemini以及自家的前辈远远甩在身后。而GPT-4o呢?一上来就直接“阵亡”了。
谷歌的Gemini 1.5 Pro首战即败,而且失败的方式很有规律——每走两步就跳一次。到了Gemini 2.0,虽然多走了几步,最终还是掉进了坑里。

目前,GamingAgent的项目代码已经开源,下载安装后就能实时观看这场AI游戏大对决。

GPT-4.5反应迟钝,GPT-4o永远被第一个小怪击败
GPT-4o的表现就像那种操作笨拙、常被队友吐槽的“游戏菜鸟”。每次都是被第一个小怪消灭,游戏在短短20秒内就宣告结束。

相比之下,GPT-4.5算是有所进步,至少没有在第一个小怪那里倒下。

但它的反应依然迟缓,几乎是两步一停。在跳过矮水管之前还要犹豫半天,感觉就像刚学会游戏操作,还在蹒跚学步。

面对一个稍高的水管,它尝试了7次,足足花了10秒才跳过去。

好不容易跳过去了,结果一头撞上小怪,第一回合就此终结。

更有趣的是,第二回合GPT-4.5又栽在了第一个小怪那里——毕竟和GPT-4o同属OpenAI家族,操作水平都差不多(开个玩笑)。

第三回合表现依旧平平,甚至不如第一回合。在第一个矮水管处卡了半天,在水管底下磨蹭了近10秒才想起跳跃。

最后虽然顺利跳过了第二个水管,但还是被小怪击杀,走的路程还不如第一回合远——第一回合至少跳过了第三个水管,虽说刚跳过就被杀了。

Gemini 1.5两步一跳,2.0栽进坑里
再看谷歌这边,Gemini 1.5 Pro首战同样不顺,没能躲过第一个小怪的追击。

第二回合,Gemini 1.5总算避开了第一个小怪,甚至还碰到了问号箱,吃到了蘑菇。

有趣的是,和GPT-4.5的两步一停不同,Gemini 1.5是“两步一跳”。走了这么一小段路,一共跳了9回——地板上跳,水管上也跳。

最后它跳过了第三根水管,甚至差点跳过第四根,走得比GPT-4.5要远一些。

至于更新的Gemini 2.0 Flash,表现上不出意外地好得多。首先,跳跃更大胆;其次,动作也更流畅。它跳到了“前人”未曾涉足的更高平台,而且10秒内就轻松越过了前面三个水管。

虽然第二回合时也惨遭第一个小怪的毒手。

但最终它走得比OpenAI家族和Gemini 1.5都远——跳过了第四根水管,栽倒在一个没能跨过的坑中。

Claude 3.7 Sonnet发现隐藏奖励
相比之下,Anthropic的Claude表现就惊艳多了。

相比于Gemini两步一跳的操作,Claude 3.7的动作更加流畅,走得也远得多。尤其是在跳跃时机的把握上,显得更有章法——碰到水管、遇到坑才跳跃。

此外,它还会有意识地通过跳跃来躲避小怪。

它跳过了Gemini 2.0 Flash两回合都没能跃过的坑,Claude操控下的马里奥终于吃到了金币;终于碰到了除了哥布林(形似蘑菇)之外的小怪——库巴(形似乌龟);甚至还触发了隐藏奖励——超级星星。

最后,它是掉到了阶梯平台之间的坑里,结束了这一轮游戏。

AI大战2048益智游戏,GPT-4o拿不出手
接下来,再看一个益智类游戏——2048。很多人可能不太熟悉这款游戏,规则很简单:通过滑动进行拼图,将相同数字的方块合并,达到尽可能高的数值。
GPT-4o在挑战过程中,因为思考时间过长,直接陷入了困境。而Claude 3.7虽然多走了几步,比GPT-4o强不少,但最终还是以失败告终。

俄罗斯方块,智商在线
那么Claude 3.7玩《俄罗斯方块》的表现又如何呢?

Anthropic的开发者关系负责人Alex Albert称赞道:“非常酷!我们需要把每一款电子游戏都变成一种评估工具。”

已经有网友在评论区许愿,让Grok 3也加入战场。看来,LLM评估即将开辟一条全新的道路。
