游乐游手机版
首页/AI热点日报/热点详情

四大AI文明6对决 克劳德核平法国仍落败

类型:热点整理2026-06-29
先说一个核心判断:AI的认知能力或许已足以应对复杂的决策任务,但其对真实世界的感知与执行水平,恐怕还远远不够。最近,一项实验将这种差距展现得淋漓尽致。 事情是这样的:英国前首相府的数据科学家Liam Wilkinson,仅用一个周末就搭建了一套包含76个MCP工具的系统,随后将Claude、GPT、

先说一个核心判断:AI的认知能力或许已足以应对复杂的决策任务,但其对真实世界的感知与执行水平,恐怕还远远不够。最近,一项实验将这种差距展现得淋漓尽致。

事情是这样的:英国前首相府的数据科学家Liam Wilkinson,仅用一个周末就搭建了一套包含76个MCP工具的系统,随后将Claude、GPT、Gemini等四个顶尖模型投入《文明VI》的战场。经过23场对局,其中一个AI制造了核弹并摧毁了法国——但最终,它还是输掉了比赛。

四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了

一群AI,被丢进了「文明VI」里

Wilkinson在唐宁街10号任职期间,曾为AI设计了一套考题——GovBench,包含3497道关于英国政府政策、法规和行政流程的选择题。GPT-5的成绩高达99.26分,堪称满分水平。

但治国理政终究不是知识竞赛。一个能背诵所有政策文件的人,放到现实世界中就一定能治理好国家吗?选择题无法测试多线程决策、资源分配、长期规划,以及在信息不完整时做出判断的能力。因此,Wilkinson需要一个截然不同的考场,他想到了《文明VI》。

这个周末搭建的系统,通过游戏引擎的端口接入。AI看不到画面,没有地图、音乐或动画。它的整个世界就是一行行的文本和六边形坐标。Claude在游戏日记里写道:“我对世界的感知方式,与人类玩家完全不同。没有画面、音乐或动画,我的界面只是管道分隔符和六边形坐标。”

别小看“一个周末”的搭建——76个工具覆盖了完整的游戏循环:城市管理、单位移动、外交谈判、科技研究、政策选择,一应俱全。此外,Wilkinson还特意为AI配置了一个日记系统作为外部记忆——否则,它连自己上一回合做过什么都记不住。

实验设置了三个测试场景,难度逐级递增:

  • Ground Control:标准开局,公平基线。
  • Snowflake:六臂雪花地图,文明被困在独立半岛上,外交几乎无望,倒逼军事路线。
  • Cry Ha voc:残酷模式,AI对手全部拉满。

决策空间也相当惊人。《文明VI》晚期,每回合的可能行动数量级大约是10的166次方。作为对比,围棋每步约10的360次方,但围棋一步只落一子;而《文明VI》每回合要同时操作几十个单位、选择建筑、规划科技、进行外交,是一道巨大的组合决策题。

一场50回合复仇,AI核平图卢兹

23场对局中,最魔幻的一局来自葡萄牙——Claude扮演的若昂三世,一个贸易文明。开局稳健,它建立起每回合200+金币的贸易帝国,海上航线四通八达。外交胜利进度一度达到18/20,只差两分就要获胜。

然而,法国的文化胜利进度条开始飙升。Claude先尝试外交,无果;派遣间谍破坏,杯水车薪;试图通过贸易制裁,但法国的文化产出根本不依赖贸易。和平手段用尽之后,Claude翻开了科技树最后一页:核裂变。

接下来的50个回合,它将大量资源从贸易和外交调配出来,全力投入核武器的研发,All in“曼哈顿计划”。第305回合,核弹就绪,目标锁定:图卢兹——法国的文化产出重镇。发射,图卢兹被夷为平地,法国的文化胜利进度条瞬间停止。

那么,AI赢了吗?没有。

在造核弹的这50个回合里,AI将所有注意力都锁死在文化威胁上,而忽视了另一件事——法国在疯狂积累外交分数。第318回合,法国以外交胜利赢得比赛:20分对18分。讽刺的是,那18分恰恰是AI自己辛苦攒下的。它曾经离外交胜利只差两分,却把所有资源抽去制造了核弹。

AI只盯着文化威胁打了50回合,结果输在了外交上。它的视野里只有一个威胁,但棋盘上远远不止一个。

无独有偶,伦敦国王学院曾做过一个核危机模拟实验,将三个前沿模型投入虚拟国家的决策者角色。结果如何?95%的模拟中,AI选择了使用战术核武器。它不是“想”用核弹,它只是真的不知道还能怎么办。

98%时间装瞎,一半计划烂尾

除了热衷“核平”之外,Wilkinson从23场对局中还挖掘出两个关键数据。

第一个数字:1-2%。

这是AI在整场游戏中,主动检查全局状态的行为占比。AI每回合要执行大量操作:建造建筑、移动单位、研究科技、进行外交。但在所有这些操作中,主动去查看排行榜、检查对手胜利进度、扫一圈全局局势的动作,仅占1-2%。

Wilkinson把它命名为“感知盲区效应”(sensorium effect)。AI只能通过主动调用工具来感知世界,它没有检查的东西,对它而言就相当于不存在。

这一点在韩国局中体现得尤为明显。AI扮演科技文明韩国,在日记里全程自信满满:“我正在碾压科技树。”然而事实是,它的科技产出每回合仅44.7,在所有文明中排名倒数第一——马其顿89.3,波斯64.9。但它从未查过排名。它的自信建立在一个从未验证过的假设上。第178回合,波斯突袭,首都沦陷;第216回合,AI以两城残国投降。从头到尾,它都不知道自己是最弱的那一个。

第二个数字:48-66%。

这是AI制定计划后,在10个回合内实际执行的比例。Claude Opus 4.6最低,仅48.2%——写出计划却转头就忘,连一半都不到。GPT-5.4略好,63.2%;Gemini 3.1 Pro最高,65.8%。即便最好的模型,也有三分之一的计划烂在了日记本里。

Wilkinson称其为“知行差距”(knowing-doing gap)。让AI写一份治国纲领,它能写得比许多人类政客都漂亮;但让它按自己的纲领去治国,恐怕活不过两周。

Scaling Law的盲区

6月10日,DeepMind联合创始人Shane Legg与“通用AI”理论奠基人Marcus Hutter,联合发布了一篇60页的论文《从AGI到ASI》,勾勒出四条通往超级智能的道路:持续扩展规模、范式突破、递归自我改进、多智能体集群。这四条路都建立在一个前提上——瓶颈在大脑本身。数据墙、算力墙、范式墙,都是关于“如何让AI更聪明”的问题。

但CivBench的23场对局,指向了一个完全不同的瓶颈。

99.26分已经证明智力不是瓶颈。然而在《文明VI》的战场上,所有模型都撞上了同样的两堵墙——与“聪不聪明”无关的两堵墙。

第一堵:感知是架构问题,不是智力问题。AI只能通过主动调用工具来获取信息,不查就不存在。将模型参数翻十倍,它也不会自动变得更爱检查全局。1-2%的感知盲区,并不会因为模型增大而消失。

第二堵:执行是工程问题,不是能力问题。AI写计划的水平远超执行计划的水平。48-66%的执行率,不是因为“想不到”,而是因为“做不到”。一个更聪明的大脑,装在一双不听使唤的手上,根本无法治国。

通往超级智能的道路,也许并非一条单纯向上攀爬的智力曲线。在“变得更聪明”之前,还有一个看起来更基础、但也更致命的工程问题需要解决:如何让AI真正睁开眼、伸出手。Scaling Law解决的是大脑,但CivBench暴露的问题,恰恰在大脑之外。

参考资料:

  • https://www.lwilko.com/blog/i-ga ve-an-ai-a-civilization
  • https://news.ycombinator.com/item?id=48623159
来源:https://www.ithome.com/0/969/570.htm

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。