AI视觉模型与人类婴儿在找球游戏中表现差异显著
还记得小时候玩过的“找球游戏”吗?把一个小球扣在三个杯子中的一个下面,快速移动后让你猜球在哪里。这个对人类甚至一些动物都轻而易举的游戏,最近却让一群顶尖的AI模型栽了大跟头。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新加坡国立大学的研究团队在2026年3月发布了一项研究,直指当前最先进视觉语言模型的一个核心软肋:它们几乎无法像人类一样,可靠地追踪移动物体的位置。论文已发布于arXiv预印本平台,编号为arXiv:2603.08436v1。

这个发现听起来简单,实则敲响了警钟。追踪动态物体是视觉理解的基础能力——从开车时预判车辆轨迹,到观看球赛时跟随高速飞行的球,再到监控系统中锁定目标。如果AI连这个基础关卡都过不了,那么自动驾驶、安防监控、服务机器人等依赖实时环境理解的应用,其可靠性就得打上一个大大的问号。
被“作弊通道”掩盖的真相
问题起初被掩盖了。研究团队像侦探一样,仔细审查了现有的视频理解测试集,发现许多用于评估“找球游戏”能力的视频存在设计漏洞。有些杯子是透明的,球直接可见;有些杯子颜色或花纹不同,AI能靠“记样子”而非“追轨迹”来答题;更有些视频在结尾直接露出了球。这无异于开卷考试还附赠答案,测试成绩自然光鲜。
为了戳破这层虚假繁荣,团队构建了一个全新的评测基准:VET-Bench。在这里,所有干扰项被彻底清除。杯子一模一样,球被完全遮盖,AI唯一能依靠的,就是观察杯子移动的序列,来推断球的最终位置。这就像蒙上眼睛,仅凭声音判断物体的移动路径,考验的是纯粹的动态视觉追踪能力。
顶尖模型的“集体失灵”与三种失败模式
结果令人大跌眼镜。当谷歌的Gemini-3-Pro、阿里的Qwen系列、字节跳动的Doubao等一众主流大模型站上这个纯净的考场时,表现几乎等同于随机猜测。这些耗费巨资训练、参数规模以千亿计的模型,在一个婴儿都能完成的游戏面前,集体“失明”了。
深入分析发现,模型的失败并非毫无规律,主要呈现三种典型模式:
第一种是“放弃思考型”:模型完全不分析视频内容,直接输出一个猜测,如同不看题目就填答题卡。
第二种是“粗糙描述型”:模型能识别出“这是一个杯子移动的游戏”,但无法捕捉任何精确的运动细节,好比只能说“有东西过去了”,却说不出是什么、去了哪。
第三种最为有趣,也最值得警惕,可称为“幻觉推理型”:一些高级模型会生成一段逻辑看似严谨的推理,比如“第一次交换,球从左移至中;第二次交换,球从中移至右”。然而,这套推理完全建立在错误的视觉观察之上,自信满满地描述了一场从未发生的转移。
理论瓶颈与破局之道
为什么这么难?研究团队从计算理论中找到了根源。他们证明,这类视觉追踪任务在计算复杂性上属于NC¹-完全问题。这意味着,如果限制模型只能进行固定深度的、无中间步骤的计算(这正是当前主流Transformer架构的特点),那么从理论上就无法有效解决此类问题。好比要求人不经任何演算步骤,一眼就解出复杂方程。
基于这一洞察,团队提出了一个巧妙的解决方案:“时空定位思维链”(SGCoT)。其核心思想是强迫AI像人类解题一样,先写出步骤,再给出答案。具体而言,模型在回答“球在哪个杯子”之前,必须先生成一条详细的轨迹描述,精确记录每个时间点球的坐标位置,例如“0秒时球在坐标(745,512),0.5秒时在(745,500)”。
他们选取了本就具备较强物体定位能力的Molmo2模型进行改造。通过针对性的训练策略,让模型学会了这种“先定位,后推理”的思维链。
效果是碘伏性的。采用SGCoT方法的Molmo2,在VET-Bench上的准确率飙升至90%以上,与其它模型约33%的随机猜测水平形成了天壤之别。这证明,AI并非没有潜力,关键是要用对方法,激发出其内在的时序推理能力。
启示:基础感知与高级推理不可偏废
这项研究揭示了一个深刻教训:许多看似智能、能生成流畅推理文本的模型,可能在最基础的视觉感知环节就已出错。就像一个逻辑缜密但视力模糊的人,推理步骤再漂亮,前提错了,结论必然荒谬。这提醒整个行业,在追逐更华丽的推理能力时,绝不能忽视对基础感知能力的夯实与评估。
同时,它也暴露了当前AI评测体系的一个普遍隐患:测试集中可能隐藏着各种“捷径”,让模型无需掌握核心能力就能获得高分。构建真正纯净、能反映本质能力的评测基准,已成为推动AI稳健发展的关键。
深远影响与未来方向
“找球游戏”的启示远不止于游戏本身。视觉追踪是自动驾驶(追踪行人车辆)、体育分析(追踪球员与球)、医疗影像(追踪器官运动)等无数高级应用的基石。这项研究为这些领域敲响了技术基础可靠性的警钟。
“时空定位思维链”指明了一个有希望的方向:未来的AI架构需要更好地融合逐步推理与感知。单纯堆叠参数和规模可能已触及瓶颈,而改进模型思考问题的方式——让其显式地、分步骤地处理时空信息——或许能打开新的局面。
当然,研究也有其边界。当前实验场景相对简单,现实世界充满遮挡、模糊和光影变化。测试数据多为合成,与真实场景的复杂性尚有距离。但这些局限性恰恰定义了未来的研究战场。
说到底,这项研究迫使我们去重新思考:何为真正的AI智能?一个能在复杂问答中侃侃而谈的系统,却可能败给婴儿级的视觉任务。这警示我们,人工智能的发展不能是“空中楼阁”,必须建立在扎实的、类人的基础感知与推理能力之上。通往更通用、更可靠AI的道路,或许正始于教会它们如何玩好一个简单的“找球游戏”。
Q&A
Q1:VET-Bench测试平台和普通的AI视频测试有什么不同?
VET-Bench设计为一个“无捷径”的纯净测试环境。它消除了普通测试中可能存在的视觉线索,如杯子颜色差异、透明材质或最终答案泄露。所有杯子外观一致,球被完全隐藏,迫使AI只能依靠分析物体运动轨迹这一核心能力来作答,从而真实反映其动态视觉追踪水平。
Q2:为什么最先进的AI模型在简单的找球游戏上表现这么差?
核心原因在于主流模型缺乏真正的时序建模与动态追踪能力。它们往往将视频视为一系列静态帧的集合,依赖从单帧提取的特征进行综合判断,而非像人类一样在脑海中连续更新物体的位置状态。加之模型架构在理论上对解决此类需要多步中间推理的时序问题存在局限,导致表现不佳。
Q3:时空定位思维链方法是如何让AI模型表现提升的?
该方法通过改变模型的推理过程来提升性能。它强制模型在给出最终答案前,先输出一系列明确的中间步骤——即物体在每个关键时间点的精确空间坐标。这相当于将复杂的追踪任务分解为多个可验证的定位子任务,引导模型进行更扎实的、逐步的推理。实验表明,这种方法能将模型准确率从接近随机猜测(约33%)提升至90%以上。
相关攻略
还记得小时候玩过的“找球游戏”吗?把一个小球扣在三个杯子中的一个下面,快速移动后让你猜球在哪里。这个对人类甚至一些动物都轻而易举的游戏,最近却让一群顶尖的AI模型栽了大跟头。 新加坡国立大学的研究团队在2026年3月发布了一项研究,直指当前最先进视觉语言模型的一个核心软肋:它们几乎无法像人类一样,可
人工智能的“幻觉”问题,特别是大模型在图像描述任务中凭空捏造内容的现象,一直是制约其可靠应用的关键挑战。2026年2月,一项由新加坡国立大学与北京大学深圳研究生院联合发布的突破性研究,为这一难题提供了全新的理解与一套高效、简洁的解决方案。这项研究(论文预印本编号:arXiv:2602 22144v1
2026年2月,一项由新加坡国立大学、南洋理工大学、新加坡管理大学、莫纳什大学及澳大利亚联邦科学与工业研究组织数据61实验室联合完成的研究,为代码生成AI的安全性问题带来了突破性进展。相关论文(arXiv:2602 07422v1)详细阐述了这一解决方案。 如今,AI辅助编程已不是新鲜事。它能快速生
这项由西安交通大学与新加坡国立大学合作完成的突破性研究,已于2026年1月14日发布于arXiv预印本平台(论文编号:arXiv:2601 09274v1)。研究团队构建了一个名为A?-Bench的全新测试平台,其核心目标直指一个关键问题:人工智能在进行科学推理时,能否像人类一样,有效地激活并运用记
新加坡环球影城偶遇照,为唐嫣罗晋婚姻正名 一组在新加坡环球影城被游客偶遇的照片,让唐嫣和罗晋夫妇再度成为公众关注的焦点。此前网络上流传的关于两人“貌合神离”的种种猜测,在这组温馨的家庭出游照面前不攻自破。照片真实记录了他们一家三口在国外享受亲子时光的动人画面,不仅洋溢着甜蜜幸福的家庭氛围,更以实际行
热门专题
热门推荐
财务智能化浪潮正深刻重塑行业格局,这既是严峻挑战,更是历史性机遇。对于广大财务从业者而言,固步自封意味着职业风险,主动转型才是破局关键。那么,财务人员如何应对智能化转型?核心在于积极拥抱变化,将人工智能、大数据等前沿技术内化为自身的核心竞争力。 一、持续学习,实现技能进阶 在智能化时代,学习已成为财
在探讨人工智能的最新进展时,语言大模型已成为一个无法回避的核心议题。它早已超越了实验室研究的范畴,正作为构建新一代AI智能体的关键平台,深刻改变着我们与机器交互、协作乃至共同进化的模式。 那么,语言大模型为何能成为AI发展的基石?其核心优势在于强大的理解与生成能力。通过对海量文本数据的深度学习与算法
人工智能的浪潮正席卷而来,其中,大语言模型无疑是浪尖上最耀眼的明珠。它们动辄千亿参数的庞大体量,以及背后精妙的深度学习架构,让机器理解并生乘人类语言的能力达到了前所未有的高度。不过,一个现实问题也随之浮现:这些“通才”型巨无霸,如何能精准地服务于千差万别的具体场景?答案的关键,就在于“微调”这项技术
在数字化浪潮席卷全球的今天,一项融合前沿AI与3D技术的创新解决方案正引领人机交互的新趋势。实在智能重磅推出的全栈AI虚拟人解决方案,深度融合了自然语言处理与3D数字化定制技术,旨在为用户打造前所未有的沉浸式交互体验。这不仅是一次技术升级,更是智能科技迈向人性化、情感化的重要里程碑。 那么,这套AI
在当今企业数字化转型的进程中,流程挖掘技术已成为提升运营效率与管理水平的关键工具。它如同一位专业的“企业流程医生”,能够基于真实数据为企业进行精准诊断并提供优化“处方”。 那么,什么是流程挖掘?简单来说,它是一种从企业信息系统(如ERP、CRM)的事件日志中自动发现、监控和改进实际业务流程的技术。它





