AI视觉模型与人类婴儿在找球游戏中表现差异显著_AI热点日报

AI视觉模型与人类婴儿在找球游戏中表现差异显著

类型：热点整理2026-05-14

还记得小时候玩过的“找球游戏”吗？把一个小球扣在三个杯子中的一个下面，快速移动后让你猜球在哪里。这个对人类甚至一些动物都轻而易举的游戏，最近却让一群顶尖的AI模型栽了大跟头。新加坡国立大学的研究团队在2026年3月发布了一项研究，直指当前最先进视觉语言模型的一个核心软肋：它们几乎无法像人类一样，可

还记得小时候玩过的“找球游戏”吗？把一个小球扣在三个杯子中的一个下面，快速移动后让你猜球在哪里。这个对人类甚至一些动物都轻而易举的游戏，最近却让一群顶尖的AI模型栽了大跟头。

新加坡国立大学的研究团队在2026年3月发布了一项研究，直指当前最先进视觉语言模型的一个核心软肋：它们几乎无法像人类一样，可靠地追踪移动物体的位置。论文已发布于arXiv预印本平台，编号为arXiv:2603.08436v1。

新加坡国立大学发现：AI视觉模型在玩

这个发现听起来简单，实则敲响了警钟。追踪动态物体是视觉理解的基础能力——从开车时预判车辆轨迹，到观看球赛时跟随高速飞行的球，再到监控系统中锁定目标。如果AI连这个基础关卡都过不了，那么自动驾驶、安防监控、服务机器人等依赖实时环境理解的应用，其可靠性就得打上一个大大的问号。

被“作弊通道”掩盖的真相

问题起初被掩盖了。研究团队像侦探一样，仔细审查了现有的视频理解测试集，发现许多用于评估“找球游戏”能力的视频存在设计漏洞。有些杯子是透明的，球直接可见；有些杯子颜色或花纹不同，AI能靠“记样子”而非“追轨迹”来答题；更有些视频在结尾直接露出了球。这无异于开卷考试还附赠答案，测试成绩自然光鲜。

为了戳破这层虚假繁荣，团队构建了一个全新的评测基准：VET-Bench。在这里，所有干扰项被彻底清除。杯子一模一样，球被完全遮盖，AI唯一能依靠的，就是观察杯子移动的序列，来推断球的最终位置。这就像蒙上眼睛，仅凭声音判断物体的移动路径，考验的是纯粹的动态视觉追踪能力。

顶尖模型的“集体失灵”与三种失败模式

结果令人大跌眼镜。当谷歌的Gemini-3-Pro、阿里的Qwen系列、字节跳动的Doubao等一众主流大模型站上这个纯净的考场时，表现几乎等同于随机猜测。这些耗费巨资训练、参数规模以千亿计的模型，在一个婴儿都能完成的游戏面前，集体“失明”了。

深入分析发现，模型的失败并非毫无规律，主要呈现三种典型模式：

第一种是“放弃思考型”：模型完全不分析视频内容，直接输出一个猜测，如同不看题目就填答题卡。

第二种是“粗糙描述型”：模型能识别出“这是一个杯子移动的游戏”，但无法捕捉任何精确的运动细节，好比只能说“有东西过去了”，却说不出是什么、去了哪。

第三种最为有趣，也最值得警惕，可称为“幻觉推理型”：一些高级模型会生成一段逻辑看似严谨的推理，比如“第一次交换，球从左移至中；第二次交换，球从中移至右”。然而，这套推理完全建立在错误的视觉观察之上，自信满满地描述了一场从未发生的转移。

理论瓶颈与破局之道

为什么这么难？研究团队从计算理论中找到了根源。他们证明，这类视觉追踪任务在计算复杂性上属于NC¹-完全问题。这意味着，如果限制模型只能进行固定深度的、无中间步骤的计算（这正是当前主流Transformer架构的特点），那么从理论上就无法有效解决此类问题。好比要求人不经任何演算步骤，一眼就解出复杂方程。

基于这一洞察，团队提出了一个巧妙的解决方案：“时空定位思维链”（SGCoT）。其核心思想是强迫AI像人类解题一样，先写出步骤，再给出答案。具体而言，模型在回答“球在哪个杯子”之前，必须先生成一条详细的轨迹描述，精确记录每个时间点球的坐标位置，例如“0秒时球在坐标(745,512)，0.5秒时在(745,500)”。

他们选取了本就具备较强物体定位能力的Molmo2模型进行改造。通过针对性的训练策略，让模型学会了这种“先定位，后推理”的思维链。

效果是碘伏性的。采用SGCoT方法的Molmo2，在VET-Bench上的准确率飙升至90%以上，与其它模型约33%的随机猜测水平形成了天壤之别。这证明，AI并非没有潜力，关键是要用对方法，激发出其内在的时序推理能力。

启示：基础感知与高级推理不可偏废

这项研究揭示了一个深刻教训：许多看似智能、能生成流畅推理文本的模型，可能在最基础的视觉感知环节就已出错。就像一个逻辑缜密但视力模糊的人，推理步骤再漂亮，前提错了，结论必然荒谬。这提醒整个行业，在追逐更华丽的推理能力时，绝不能忽视对基础感知能力的夯实与评估。

同时，它也暴露了当前AI评测体系的一个普遍隐患：测试集中可能隐藏着各种“捷径”，让模型无需掌握核心能力就能获得高分。构建真正纯净、能反映本质能力的评测基准，已成为推动AI稳健发展的关键。

深远影响与未来方向

“找球游戏”的启示远不止于游戏本身。视觉追踪是自动驾驶（追踪行人车辆）、体育分析（追踪球员与球）、医疗影像（追踪器官运动）等无数高级应用的基石。这项研究为这些领域敲响了技术基础可靠性的警钟。

“时空定位思维链”指明了一个有希望的方向：未来的AI架构需要更好地融合逐步推理与感知。单纯堆叠参数和规模可能已触及瓶颈，而改进模型思考问题的方式——让其显式地、分步骤地处理时空信息——或许能打开新的局面。

当然，研究也有其边界。当前实验场景相对简单，现实世界充满遮挡、模糊和光影变化。测试数据多为合成，与真实场景的复杂性尚有距离。但这些局限性恰恰定义了未来的研究战场。

说到底，这项研究迫使我们去重新思考：何为真正的AI智能？一个能在复杂问答中侃侃而谈的系统，却可能败给婴儿级的视觉任务。这警示我们，人工智能的发展不能是“空中楼阁”，必须建立在扎实的、类人的基础感知与推理能力之上。通往更通用、更可靠AI的道路，或许正始于教会它们如何玩好一个简单的“找球游戏”。

Q&A

Q1：VET-Bench测试平台和普通的AI视频测试有什么不同？

VET-Bench设计为一个“无捷径”的纯净测试环境。它消除了普通测试中可能存在的视觉线索，如杯子颜色差异、透明材质或最终答案泄露。所有杯子外观一致，球被完全隐藏，迫使AI只能依靠分析物体运动轨迹这一核心能力来作答，从而真实反映其动态视觉追踪水平。

Q2：为什么最先进的AI模型在简单的找球游戏上表现这么差？

核心原因在于主流模型缺乏真正的时序建模与动态追踪能力。它们往往将视频视为一系列静态帧的集合，依赖从单帧提取的特征进行综合判断，而非像人类一样在脑海中连续更新物体的位置状态。加之模型架构在理论上对解决此类需要多步中间推理的时序问题存在局限，导致表现不佳。

Q3：时空定位思维链方法是如何让AI模型表现提升的？

该方法通过改变模型的推理过程来提升性能。它强制模型在给出最终答案前，先输出一系列明确的中间步骤——即物体在每个关键时间点的精确空间坐标。这相当于将复杂的追踪任务分解为多个可验证的定位子任务，引导模型进行更扎实的、逐步的推理。实验表明，这种方法能将模型准确率从接近随机猜测（约33%）提升至90%以上。

来源：https://www.techwalker.com/2026/0323/3182003.shtml

新加坡

延伸阅读

补充最近整理过的热点入口。