游乐游手机版
首页/AI教程/文章详情

多款AI模型坦克大战测试全部翻车

时间:2026-06-25 13:29
多个国内外AI模型(豆包、DeepSeek、千问、Kimi、GPT、Gemini、Claude)未能正确回答《坦克大战》修改规则的视觉推理题,因其依赖固有知识、缺乏主动推理,难以处理“如果”条件与图片信息的冲突。
上次聊到DeepSeek的图像识别能力不如豆包,有些朋友对此颇有微词。其实不必过于较真——尺有所短,寸有所长,各家模型各有擅长领域,这再正常不过。我那次只聚焦识别图片,豆包确实比DeepSeek表现更佳,这点毫无争议。但话说回来,豆包也并非十全十美。 今天这个测试题,豆包同样栽了跟头,而且不只是它,DeepSeek、Qwen、Kimi集体失手,即便是GPT、Claude这样的业界顶流,也都没能给出正确答案。 AI固然强大,但人类总能找到刁钻角度,让它们集体哑火。 这次是一个视觉理解题。把下面这张图交给AI,然后问了一个问题: 不知道有没有玩过《坦克大战》的老玩家,还记不记得这款80后家喻户晓游戏的规则? 题目的刁钻之处在于,我用“如果”修改了基础规则。AI必须先理解坦克大战的原始规则,但不能死记硬背,得通过图片信息进行推理,才能给出正确答案。 下面看看各家AI是怎么接招的。

1、DeepSeek

DeepSeek刚上线图片识别能力,就先请它试试: DeepSeek的结论是:在其推理过程中提到“这块砖和红框里的砖一样,需要两枪才能彻底打掉”。这一步就已经偏离事实了。那两块砖明显不一样,一块是另一块的一半大小,只要视力正常都能看出来。当然,如果背规则的话,这个位置的墙确实需要两枪——但这恰恰是它落入陷阱的地方。

2、豆包

上次豆包略胜DeepSeek,这次让它第二个上场: 豆姐这次说得挺果断,直接断言“基地被摧毁,本局失败”。但我认为它多半是瞎蒙的,瞎猫撞上了死耗子。因为它解释第一枪和第二枪的时候,把两枪混在一起说,逻辑明显不通。于是追问了一次: 它的结论就变成了:对嘛,这才是豆姐的正常水平。

3、Kimi

Kimi号称原生多模态,对图片、网页、视频的理解能力非常强。拉它上阵: Kimi K2.6的结论是:推理过程中,它说“第二炮同上,依然被钢板挡住”。这个描述就相当离谱了——哪里来的钢板?

4、千问

千问是阿里的模型,最新Qwen3.7 Max号称全国第一。让它试试: 千问的结论也是错的。不过,它的分析过程倒是有亮点——竟然提到了一个非常细节的点:我这么多年玩下来,好像都没留意过那个细节,也可能是以前记得,现在彻底忘了。 可惜的是,它看得再仔细、规则理得再清楚,最后还是忘了推理。我说的“如果”,等于把坦克的战力降为一星,与图片显示冲突。可“如果”规则优先级最高,它要是能解释这个逻辑分支,那才是真的厉害。

5、GPT

GPT来自目前最大的AI公司OpenAI,产品几乎引领了整个时代。用它们最强的GPT5.5测试: GPT5.5的结论是:平时说话一套一套的GPT,在这个问题上也完全是胡说八道,基本就是背规则——“两炮干掉基地围墙”。

6、Gemini

Gemini是谷歌的产品,当前最新版本是3.5 Flash: 它的结论是:谷歌作为搜索大厂,显然大量参考了现有资料,结果同样掉进了固有知识的坑里。

7、Claude

Claude来自Anthropic,目前编程领域最强的模型,综合能力也是顶尖,是我个人最喜欢的模型。必须让它也来试试: 它的结论是:很遗憾,Claude也按“两炮打掉一块砖”的规则推了下去。 国内四家,国外三家,比较厉害的模型都测了个遍,结果都一样——没有一个完全正确。如果我再强调一下墙的厚度,估计不少AI就会顺坡下驴。 这个题目其实有几个难点。第一,地图是我用AI生成的,和老版本不同;第二,我设置了“如果”规则,和老版本规则不一致;第三,AI得先理解我的规则,再理解位置关系,最后还得搞清厚薄关系。在坦克大战正常规则下,0星战力需要四枪打掉一个方砖,基地是1/2砖,需要两枪打穿。而我的规则是两枪打破1块砖,也就是一枪就能打破1/2砖。 从这个测试来看,各家模型基本还是以固有知识为主,缺乏主动推理能力。有些模型可能看到了墙的厚度差别,但最终结论依然是要两枪打破保护墙,只有第三枪才会干掉老鹰。 现在AI在基础知识方面已经很能打了,但只要“如果”条件一多,它们就很容易躺平。我之前叫全球最强的模型帮我复刻过一个坦克大战,整体做得不错,但深入规则后,细节问题还真不少。各家宣传都很厉害,实际使用中还是会遇到各种各样的问题。 这也是我做系列测试的意义——不测基准,不测官方demo,不测网上热门例子,专测它们想不到的问题。之前测试过让不同AI还原超级玛丽,接下来准备测试一下它们1:1复刻坦克大战的能力,这次会直接测智能体加模型的综合表现。
来源:https://juejin.cn/post/7653777184240681014
上一篇录音转文字神器排行榜实测推荐个人知识库搭建必备 下一篇苹果升级健康App让iPhone秒变AI医生
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Claude MCP模型爆火 AI Agent圈万能插头让Cursor工作流效率提升10倍
AI教程 · 2026-06-27

Claude MCP模型爆火 AI Agent圈万能插头让Cursor工作流效率提升10倍

坦白说,MCP这波热度来得有点突然。去年11月Anthropic推出的时候,没引起太大波澜;但最近几天,X上几乎所有人都在讨论MCP服务器,大有把它捧成AI应用碘伏者的架势。 MCP(模型上下文协议)是去年11月由Claude的母公司Anthropic推出的一项开放标准协议,目标是为大语言模型与外部

凯文凯利万字预言未来十年AI世界发展趋势
AI教程 · 2026-06-27

凯文凯利万字预言未来十年AI世界发展趋势

凯文·凯利授课现场 1、关于AI的未来图景 感谢邀请,有机会跟嘉宾商学的企业家校友们面对面聊聊。大家这次访学行程很硬核——从拉斯维加斯CES到硅谷,接触了不少最新的AI技术和理论。所以今天的分享,想提供一个不太一样的视角:关于AI正在发生什么,以及接下来会发生什么。会用一种叫“情景规划”的方式来展开

从Manus到GO-1:AI逐步走进物理世界
AI教程 · 2026-06-27

从Manus到GO-1:AI逐步走进物理世界

2025年3月,中国AI领域投下的重磅冲击波,可不止一枚。Manus通用AI Agent以“全球首款执行级智能体”之姿闪亮登场,紧接着,GO-1通用具身基座大模型宣布开源,扬言要“重新定义人机交互边界”。这两件事,让不少人开始认真琢磨:当AI不再满足于云端聊天,开始伸手触碰物理世界,真正的智能革命,

Manus AI是通用Agent革命还是精巧缝合怪
AI教程 · 2026-06-27

Manus AI是通用Agent革命还是精巧缝合怪

先说一个基本判断:昨天,Manus至少在中文媒体圈里刷屏了。 自媒体的反应相当狂热,“通用Agent终于实现了!”“这是继DeepSeek之后的又一技术革命!”这样的说法遍地都是。从Benchmark来看,Manus的表现确实亮眼——在GAIA测试中,它超越了此前的各种Agent以及OpenAI的D

Ubuntu从零部署OpenClaw完整教程(本地模型与DeepSeek)
AI教程 · 2026-06-27

Ubuntu从零部署OpenClaw完整教程(本地模型与DeepSeek)

0 前言 OpenClaw(圈内常称“龙虾”)是一套开源、支持自托管的 AI 助手平台,原生兼容 Ollama 本地模型与 DeepSeek 等云端 API,让您在隐私保护与性能体验之间灵活切换——需要安全就用本地,追求强大则上云端。本文记录了我在 Ubuntu 系统上从零搭建 OpenClaw