多款AI模型坦克大战测试全部翻车

时间：2026-06-25 13:29

多个国内外AI模型（豆包、DeepSeek、千问、Kimi、GPT、Gemini、Claude）未能正确回答《坦克大战》修改规则的视觉推理题，因其依赖固有知识、缺乏主动推理，难以处理“如果”条件与图片信息的冲突。

上次聊到DeepSeek的图像识别能力不如豆包，有些朋友对此颇有微词。其实不必过于较真——尺有所短，寸有所长，各家模型各有擅长领域，这再正常不过。我那次只聚焦识别图片，豆包确实比DeepSeek表现更佳，这点毫无争议。但话说回来，豆包也并非十全十美。今天这个测试题，豆包同样栽了跟头，而且不只是它，DeepSeek、Qwen、Kimi集体失手，即便是GPT、Claude这样的业界顶流，也都没能给出正确答案。 AI固然强大，但人类总能找到刁钻角度，让它们集体哑火。这次是一个视觉理解题。把下面这张图交给AI，然后问了一个问题：不知道有没有玩过《坦克大战》的老玩家，还记不记得这款80后家喻户晓游戏的规则？题目的刁钻之处在于，我用“如果”修改了基础规则。AI必须先理解坦克大战的原始规则，但不能死记硬背，得通过图片信息进行推理，才能给出正确答案。下面看看各家AI是怎么接招的。

1、DeepSeek

DeepSeek刚上线图片识别能力，就先请它试试： DeepSeek的结论是：在其推理过程中提到“这块砖和红框里的砖一样，需要两枪才能彻底打掉”。这一步就已经偏离事实了。那两块砖明显不一样，一块是另一块的一半大小，只要视力正常都能看出来。当然，如果背规则的话，这个位置的墙确实需要两枪——但这恰恰是它落入陷阱的地方。

2、豆包

上次豆包略胜DeepSeek，这次让它第二个上场：豆姐这次说得挺果断，直接断言“基地被摧毁，本局失败”。但我认为它多半是瞎蒙的，瞎猫撞上了死耗子。因为它解释第一枪和第二枪的时候，把两枪混在一起说，逻辑明显不通。于是追问了一次：它的结论就变成了：对嘛，这才是豆姐的正常水平。

3、Kimi

Kimi号称原生多模态，对图片、网页、视频的理解能力非常强。拉它上阵： Kimi K2.6的结论是：推理过程中，它说“第二炮同上，依然被钢板挡住”。这个描述就相当离谱了——哪里来的钢板？

4、千问

千问是阿里的模型，最新Qwen3.7 Max号称全国第一。让它试试：千问的结论也是错的。不过，它的分析过程倒是有亮点——竟然提到了一个非常细节的点：我这么多年玩下来，好像都没留意过那个细节，也可能是以前记得，现在彻底忘了。可惜的是，它看得再仔细、规则理得再清楚，最后还是忘了推理。我说的“如果”，等于把坦克的战力降为一星，与图片显示冲突。可“如果”规则优先级最高，它要是能解释这个逻辑分支，那才是真的厉害。

5、GPT

GPT来自目前最大的AI公司OpenAI，产品几乎引领了整个时代。用它们最强的GPT5.5测试： GPT5.5的结论是：平时说话一套一套的GPT，在这个问题上也完全是胡说八道，基本就是背规则——“两炮干掉基地围墙”。

6、Gemini

Gemini是谷歌的产品，当前最新版本是3.5 Flash：它的结论是：谷歌作为搜索大厂，显然大量参考了现有资料，结果同样掉进了固有知识的坑里。

7、Claude

Claude来自Anthropic，目前编程领域最强的模型，综合能力也是顶尖，是我个人最喜欢的模型。必须让它也来试试：它的结论是：很遗憾，Claude也按“两炮打掉一块砖”的规则推了下去。国内四家，国外三家，比较厉害的模型都测了个遍，结果都一样——没有一个完全正确。如果我再强调一下墙的厚度，估计不少AI就会顺坡下驴。这个题目其实有几个难点。第一，地图是我用AI生成的，和老版本不同；第二，我设置了“如果”规则，和老版本规则不一致；第三，AI得先理解我的规则，再理解位置关系，最后还得搞清厚薄关系。在坦克大战正常规则下，0星战力需要四枪打掉一个方砖，基地是1/2砖，需要两枪打穿。而我的规则是两枪打破1块砖，也就是一枪就能打破1/2砖。从这个测试来看，各家模型基本还是以固有知识为主，缺乏主动推理能力。有些模型可能看到了墙的厚度差别，但最终结论依然是要两枪打破保护墙，只有第三枪才会干掉老鹰。现在AI在基础知识方面已经很能打了，但只要“如果”条件一多，它们就很容易躺平。我之前叫全球最强的模型帮我复刻过一个坦克大战，整体做得不错，但深入规则后，细节问题还真不少。各家宣传都很厉害，实际使用中还是会遇到各种各样的问题。这也是我做系列测试的意义——不测基准，不测官方demo，不测网上热门例子，专测它们想不到的问题。之前测试过让不同AI还原超级玛丽，接下来准备测试一下它们1:1复刻坦克大战的能力，这次会直接测智能体加模型的综合表现。

来源：https://juejin.cn/post/7653777184240681014

DeepSeek

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-27

Claude MCP模型爆火 AI Agent圈万能插头让Cursor工作流效率提升10倍

坦白说，MCP这波热度来得有点突然。去年11月Anthropic推出的时候，没引起太大波澜；但最近几天，X上几乎所有人都在讨论MCP服务器，大有把它捧成AI应用碘伏者的架势。 MCP（模型上下文协议）是去年11月由Claude的母公司Anthropic推出的一项开放标准协议，目标是为大语言模型与外部

AI教程 · 2026-06-27

凯文凯利万字预言未来十年AI世界发展趋势

凯文·凯利授课现场 1、关于AI的未来图景感谢邀请，有机会跟嘉宾商学的企业家校友们面对面聊聊。大家这次访学行程很硬核——从拉斯维加斯CES到硅谷，接触了不少最新的AI技术和理论。所以今天的分享，想提供一个不太一样的视角：关于AI正在发生什么，以及接下来会发生什么。会用一种叫“情景规划”的方式来展开

AI教程 · 2026-06-27

从Manus到GO-1：AI逐步走进物理世界

2025年3月，中国AI领域投下的重磅冲击波，可不止一枚。Manus通用AI Agent以“全球首款执行级智能体”之姿闪亮登场，紧接着，GO-1通用具身基座大模型宣布开源，扬言要“重新定义人机交互边界”。这两件事，让不少人开始认真琢磨：当AI不再满足于云端聊天，开始伸手触碰物理世界，真正的智能革命，

AI教程 · 2026-06-27

Manus AI是通用Agent革命还是精巧缝合怪

先说一个基本判断：昨天，Manus至少在中文媒体圈里刷屏了。自媒体的反应相当狂热，“通用Agent终于实现了！”“这是继DeepSeek之后的又一技术革命！”这样的说法遍地都是。从Benchmark来看，Manus的表现确实亮眼——在GAIA测试中，它超越了此前的各种Agent以及OpenAI的D

AI教程 · 2026-06-27

Ubuntu从零部署OpenClaw完整教程（本地模型与DeepSeek）

0 前言 OpenClaw（圈内常称“龙虾”）是一套开源、支持自托管的 AI 助手平台，原生兼容 Ollama 本地模型与 DeepSeek 等云端 API，让您在隐私保护与性能体验之间灵活切换——需要安全就用本地，追求强大则上云端。本文记录了我在 Ubuntu 系统上从零搭建 OpenClaw