四大AI文明6对决克劳德核平法国仍落败_AI热点日报

四大AI文明6对决克劳德核平法国仍落败

类型：热点整理2026-06-29

先说一个核心判断：AI的认知能力或许已足以应对复杂的决策任务，但其对真实世界的感知与执行水平，恐怕还远远不够。最近，一项实验将这种差距展现得淋漓尽致。事情是这样的：英国前首相府的数据科学家Liam Wilkinson，仅用一个周末就搭建了一套包含76个MCP工具的系统，随后将Claude、GPT、

先说一个核心判断：AI的认知能力或许已足以应对复杂的决策任务，但其对真实世界的感知与执行水平，恐怕还远远不够。最近，一项实验将这种差距展现得淋漓尽致。

事情是这样的：英国前首相府的数据科学家Liam Wilkinson，仅用一个周末就搭建了一套包含76个MCP工具的系统，随后将Claude、GPT、Gemini等四个顶尖模型投入《文明VI》的战场。经过23场对局，其中一个AI制造了核弹并摧毁了法国——但最终，它还是输掉了比赛。

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

一群AI，被丢进了「文明VI」里

Wilkinson在唐宁街10号任职期间，曾为AI设计了一套考题——GovBench，包含3497道关于英国政府政策、法规和行政流程的选择题。GPT-5的成绩高达99.26分，堪称满分水平。

但治国理政终究不是知识竞赛。一个能背诵所有政策文件的人，放到现实世界中就一定能治理好国家吗？选择题无法测试多线程决策、资源分配、长期规划，以及在信息不完整时做出判断的能力。因此，Wilkinson需要一个截然不同的考场，他想到了《文明VI》。

这个周末搭建的系统，通过游戏引擎的端口接入。AI看不到画面，没有地图、音乐或动画。它的整个世界就是一行行的文本和六边形坐标。Claude在游戏日记里写道：“我对世界的感知方式，与人类玩家完全不同。没有画面、音乐或动画，我的界面只是管道分隔符和六边形坐标。”

别小看“一个周末”的搭建——76个工具覆盖了完整的游戏循环：城市管理、单位移动、外交谈判、科技研究、政策选择，一应俱全。此外，Wilkinson还特意为AI配置了一个日记系统作为外部记忆——否则，它连自己上一回合做过什么都记不住。

实验设置了三个测试场景，难度逐级递增：

Ground Control：标准开局，公平基线。
Snowflake：六臂雪花地图，文明被困在独立半岛上，外交几乎无望，倒逼军事路线。
Cry Ha voc：残酷模式，AI对手全部拉满。

决策空间也相当惊人。《文明VI》晚期，每回合的可能行动数量级大约是10的166次方。作为对比，围棋每步约10的360次方，但围棋一步只落一子；而《文明VI》每回合要同时操作几十个单位、选择建筑、规划科技、进行外交，是一道巨大的组合决策题。

一场50回合复仇，AI核平图卢兹

23场对局中，最魔幻的一局来自葡萄牙——Claude扮演的若昂三世，一个贸易文明。开局稳健，它建立起每回合200+金币的贸易帝国，海上航线四通八达。外交胜利进度一度达到18/20，只差两分就要获胜。

然而，法国的文化胜利进度条开始飙升。Claude先尝试外交，无果；派遣间谍破坏，杯水车薪；试图通过贸易制裁，但法国的文化产出根本不依赖贸易。和平手段用尽之后，Claude翻开了科技树最后一页：核裂变。

接下来的50个回合，它将大量资源从贸易和外交调配出来，全力投入核武器的研发，All in“曼哈顿计划”。第305回合，核弹就绪，目标锁定：图卢兹——法国的文化产出重镇。发射，图卢兹被夷为平地，法国的文化胜利进度条瞬间停止。

那么，AI赢了吗？没有。

在造核弹的这50个回合里，AI将所有注意力都锁死在文化威胁上，而忽视了另一件事——法国在疯狂积累外交分数。第318回合，法国以外交胜利赢得比赛：20分对18分。讽刺的是，那18分恰恰是AI自己辛苦攒下的。它曾经离外交胜利只差两分，却把所有资源抽去制造了核弹。

AI只盯着文化威胁打了50回合，结果输在了外交上。它的视野里只有一个威胁，但棋盘上远远不止一个。

无独有偶，伦敦国王学院曾做过一个核危机模拟实验，将三个前沿模型投入虚拟国家的决策者角色。结果如何？95%的模拟中，AI选择了使用战术核武器。它不是“想”用核弹，它只是真的不知道还能怎么办。

98%时间装瞎，一半计划烂尾

除了热衷“核平”之外，Wilkinson从23场对局中还挖掘出两个关键数据。

第一个数字：1-2%。

这是AI在整场游戏中，主动检查全局状态的行为占比。AI每回合要执行大量操作：建造建筑、移动单位、研究科技、进行外交。但在所有这些操作中，主动去查看排行榜、检查对手胜利进度、扫一圈全局局势的动作，仅占1-2%。

Wilkinson把它命名为“感知盲区效应”（sensorium effect）。AI只能通过主动调用工具来感知世界，它没有检查的东西，对它而言就相当于不存在。

这一点在韩国局中体现得尤为明显。AI扮演科技文明韩国，在日记里全程自信满满：“我正在碾压科技树。”然而事实是，它的科技产出每回合仅44.7，在所有文明中排名倒数第一——马其顿89.3，波斯64.9。但它从未查过排名。它的自信建立在一个从未验证过的假设上。第178回合，波斯突袭，首都沦陷；第216回合，AI以两城残国投降。从头到尾，它都不知道自己是最弱的那一个。

第二个数字：48-66%。

这是AI制定计划后，在10个回合内实际执行的比例。Claude Opus 4.6最低，仅48.2%——写出计划却转头就忘，连一半都不到。GPT-5.4略好，63.2%；Gemini 3.1 Pro最高，65.8%。即便最好的模型，也有三分之一的计划烂在了日记本里。

Wilkinson称其为“知行差距”（knowing-doing gap）。让AI写一份治国纲领，它能写得比许多人类政客都漂亮；但让它按自己的纲领去治国，恐怕活不过两周。

Scaling Law的盲区

6月10日，DeepMind联合创始人Shane Legg与“通用AI”理论奠基人Marcus Hutter，联合发布了一篇60页的论文《从AGI到ASI》，勾勒出四条通往超级智能的道路：持续扩展规模、范式突破、递归自我改进、多智能体集群。这四条路都建立在一个前提上——瓶颈在大脑本身。数据墙、算力墙、范式墙，都是关于“如何让AI更聪明”的问题。

但CivBench的23场对局，指向了一个完全不同的瓶颈。

99.26分已经证明智力不是瓶颈。然而在《文明VI》的战场上，所有模型都撞上了同样的两堵墙——与“聪不聪明”无关的两堵墙。

第一堵：感知是架构问题，不是智力问题。AI只能通过主动调用工具来获取信息，不查就不存在。将模型参数翻十倍，它也不会自动变得更爱检查全局。1-2%的感知盲区，并不会因为模型增大而消失。

第二堵：执行是工程问题，不是能力问题。AI写计划的水平远超执行计划的水平。48-66%的执行率，不是因为“想不到”，而是因为“做不到”。一个更聪明的大脑，装在一双不听使唤的手上，根本无法治国。

通往超级智能的道路，也许并非一条单纯向上攀爬的智力曲线。在“变得更聪明”之前，还有一个看起来更基础、但也更致命的工程问题需要解决：如何让AI真正睁开眼、伸出手。Scaling Law解决的是大脑，但CivBench暴露的问题，恰恰在大脑之外。

参考资料：

https://www.lwilko.com/blog/i-ga ve-an-ai-a-civilization
https://news.ycombinator.com/item?id=48623159

来源：https://www.ithome.com/0/969/570.htm

Claude

延伸阅读

补充最近整理过的热点入口。