首页 游戏 软件 资讯 排行榜 专题
首页
AI
大模型错给3岁宝宝的纯视觉试卷:金牌VLM为何失效

大模型错给3岁宝宝的纯视觉试卷:金牌VLM为何失效

热心网友
87
转载
2026-01-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:定慧

【新智元导读】大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。

但一个更关键的问题是:当问题不再能「用语言说清楚」时,模型还能不能「看懂」?

为了测评模型能不能「看懂」,以及能「看懂」多少,UniPat AI携手红杉中国xbench团队,并联合多家大模型公司与高校的研究员,发布新的多模态理解评测集BabyVision。

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

如果一个视觉问题可以完全用文字描述且不丢信息,它本质上就会退化成文本题。

模型可以靠强大的语言推理能力一路通关,看起来很会「看」,其实是在走语言捷径。

而真正的视觉能力,需要在没有语言扶梯的情况下完成:比较、追踪、空间想象、模式归纳。

Google DeepMind创始人Demis Hassabis曾提到类似观点:

「大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中。」

展望2026年,我们判断世界模型与视觉多模态将迎来新一轮突破性进展。

值此开年之际,UniPat AI联合xbench率先抛出关键问题和全新「考卷」,以此迎接并参与新一轮技术突破的到来。

让顶尖模型和孩子做同一张试卷

BabyVision先做了一项非常直接的对比实验:把20道视觉中心任务(vision-centric)作为BabyVision-Mini交给不同年龄段孩子(3/6/10/12岁)和当下顶尖多模态模型来做。

这份「小试卷」要求严格控制语言依赖:题目要求很简单,答案必须靠视觉信息本身得出。

而最终评测结果显示:在「看懂世界」这方面,大模型还没上幼儿园:

大多数模型的分数,聚集在明显低于平均3岁儿童的区间;

Gemini-3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点。


下面是其中一道题,直观且反直觉,连线垃圾分类,小孩可以轻松做对,但顶尖模型追踪一条线都能追丢。

三件物品沿着线分别连到哪个颜色垃圾桶?A, B, C分别表示上方从左到右的三个物体。



<< 左右滑动查看下一张图片 >>

正确答案:A-蓝,B-黄,C-绿

模型答案(Gemini3-Pro-Preview):A-绿,B-黄,C-蓝

人类的解法几乎是本能,从点出发沿线走到终点(右侧照片是三岁幼儿真实做题痕迹)。

但模型会写出一大段「逐段追踪」的推理,最后仍把两条路径接反:看起来「很会分析」,其实在最基础的视觉追踪上掉线。

BabyVision-Full把视觉能力拆成4大类

研究团队将视觉能力提炼为四大核心类别,每类下细分若干子任务:

精细辨别(Fine-grained Discrimination):分辨细微的视觉差异(8 个子任务)

视觉追踪(Visual Tracking):跟随路径、线条与运动轨迹(5 个子任务)

空间感知(Spatial Perception):理解三维结构及其关系(5 个子任务)

视觉模式识别(VisualPattern Recognition):识别逻辑与几何规律(4 个子任务)

这套设计的核心理念很明确:不是为了「刁难」模型,而是量化那些「人类直觉就会、但构成智能地基」的视觉原子能力。

这同样是具身智能(embodied AI)走向现实世界的必修课。

为了最大程度确保「纯视觉」考核的有效性,BabyVision在数据构建上也下足了工夫。

项目团队首先参考了儿童认知教材和视觉发育测验,梳理出了上述4大类共22种基础视觉子任务。

接着,每个子技能挑选出 4-5 个种子示例(种子图片),作为该类型任务的典型代表。

基于这些种子示例,研究者利用逆向图像搜索和关键词搜索,从互联网上爬取了约4000张相似的候选图片。

在数据收集过程中,团队严格遵守版权规范,只挑选可用于非商业或学术用途的素材,并过滤掉可能包含大量文字说明或需要文化常识才能理解的图片。

由此获得的海量图片进入人工标注环节:多名专业人员逐一检查图片,筛除不适合出题的样本,对保留下来的图片精心设计问题和标准答案。

为了确保答案的客观正确,每个问题还附有详细的「解题过程」说明,以证明答案确实可由视觉推理得出。

最终,所有标注完成的问题都经过「双盲质检」——两位独立专家交叉审核,每道题只有在双方都认可其答案无误、推理严谨的情况下才被收录 ;若出现异议则退回修改,反复仍无法达成一致的题目则果断弃用。

经过这一系列严苛的筛选,BabyVision最终产出了388道高质量视觉题目,涵盖22种子任务。


最终评测结果

在BabyVision-Full上,研究团队引入了人类基线,16位至少本科背景的测试者完成全量388题,人类准确率达94.1%。

再看模型:

•闭源最强:Gemini-3-Pro Preview为49.7%

开源侧:

• 最强模型(Qwen-3-VL-235B-Thinking)整体为22.2%,多数模型在12–19%区间。

更关键的是:差距不是集中在某一个类别。

四大类能力都在下滑,说明这是「系统性缺基础视觉能力」,而非某个单点缺陷。

一些子任务甚至几乎「全员翻车」,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型结构化场景能力不足。


为什么会这样?

这些题目unspeakable

最反直觉的地方在于:BabyVision里的很多题,对人类来说不难,甚至孩子会用指一指、圈一圈、沿着线走一遍就搞定。

但模型一旦用文字去「复述」视觉,再用语言推理去算,信息就丢了。

研究团队把这种现象概括为:「这些视觉题是「unspeakable」的,无法在不损失信息的情况下被完整语言化;模型试图把视觉压缩成token,细节在压缩中消失。」

并进一步总结了4类典型挑战:


挑战 1:「非语言细节」(Observing Non-Verbal Details)


比如拼图/补全题里,选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位。

人类凭几何直觉「对齐边界」就能秒选,但模型一旦把形状用语言概括成「像钩子、两个腿、差不多七八个六边形」,细节就被抹平,选项在token空间里变得「几乎一样」。


挑战 2:追线追丢了(Manifold Understanding)


连线/绕线/轨迹题,答案编码在「连通性」里:

人类是锁定一条线→穿过交叉→一路追到终点;

模型往往把线翻译成「左/右/上/下」的离散步骤,一遇到交叉点就出现分叉爆炸,容易「换轨」追错线。


挑战 3:缺少真正的空间想象(Spatial Imagination)


三维方块计数、视角投影、遮挡下的结构判断,人类通常不是「用语言一步步描述」,而是把结构在脑中「立起来」,换个角度看,再数。

模型则容易犯两类错误:漏掉隐藏块、投影关系搞错。这不是逻辑差,而是缺少稳定的3D内部表征与变换能力。


挑战 4:图形规律归纳难(Visual Pattern Induction)


这类题要求从少量视觉示例里抽象出规则,再迁移到新图。

人类做的是关系映射,真正决定正确性的是「发生了什么变化」而不是「那里有什么」,具体的形状、颜色、绝对位置都可以变,只有它们在变换中的「身份」不变。

模型常常盯着表面属性(颜色、形状),把「结构规则」误读成「外观统计」,导致迁移时幻觉规则。

BabyVision-Gen给出一个新方向

当文本推理不够用,一个自然的问题出现了:

能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?

于是,有了BabyVision-Gen:

• 从原基准中重新标注出280道适合「生成式作答」的题

•要求模型输出图像/视频来表达解题过程或答案

•并开发了自动评测工具,与人工评测一致性达96%

研究团队在BabyVision-Gen上评测了多种生成模型(包括Nano Banana Pro、Qwen-Image、Veo 3、Sora 2)。

现阶段得到的结论很克制但重要:

• 生成式推理在视觉追踪、精细辨别等VLM易翻车任务上出现「更像人类」的行为(会真的去画轨迹、做标注);

• 但整体仍然缺乏稳定到达完全正确解的能力。

这至少说明:把视觉推理「落地到视觉操作」上,可能是补齐短板的一条路。

下面看一个具体的例子:用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径。

Sora 2:

Nano Banana Pro:


为什么BabyVision重要?

正如研究团队在Blog中所写:

「很难想象一个视觉能力低于3岁孩子的机器人,能够可靠地在真实物理世界里帮助人类。」

今天,多模态模型「会说会写」已经很强,但要走向真正的通用智能与具身智能,视觉地基必须补上:看得准(细粒度辨别),追得住(轨迹/连通性),想得出(3D结构想象),归纳得了(图形规则迁移)。

因此,BabyVision的价值正在于:

把「看懂世界」拆成可测量、可诊断、可迭代的22个原子能力,告诉我们差距到底在哪里、下一步该补什么,从而引导多模态大模型发展。

开源地址

blog

https://unipat.ai/blog/BabyVision

github

https://github.com/UniPat-AI/BabyVision

huggingface

https://huggingface.co/collections/UnipatAI/babyvision

UniPat

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

正式链接:https://unipat.ai

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


来源:https://www.163.com/dy/article/KJ2GIAEU0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步
科技数码
EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步

这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、

热心网友
04.22
摩尔线程完成智谱GLM-5.1适配
科技数码
摩尔线程完成智谱GLM-5.1适配

北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支

热心网友
04.15
如何利用SQL进行推理
数据库
如何利用SQL进行推理

如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答

热心网友
04.14
AI看图能力真伪探秘:它是否真是编出来的?
科技数码
AI看图能力真伪探秘:它是否真是编出来的?

一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回

热心网友
04.01
智谱CEO张鹏:追求推理极限,推动长效AI发展
科技数码
智谱CEO张鹏:追求推理极限,推动长效AI发展

雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的 "第一性 "。张鹏说,

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

我的世界正版账号在哪买
游戏攻略
我的世界正版账号在哪买

我的世界正版账号在哪买?权威平台推荐与安全购买全攻略 想要畅玩《我的世界》的所有游戏内容并享受完整社区支持,一个正版账号是必不可少的入场券。如何挑选靠谱渠道并确保交易安全,是许多玩家关心的首要问题。本文将为您系统梳理主流购买平台,并提供一套可操作的安全指南,助您无忧开启创造之旅。 官方渠道:最安全可

热心网友
05.01
三角洲行动长弓溪谷密码汇总2026有哪些
游戏攻略
三角洲行动长弓溪谷密码汇总2026有哪些

在《三角洲行动》中,长弓溪谷地图的“2026”系列密码是解锁隐藏区域与高级资源的关键。掌握这些密码不仅能开启封锁区域获取强力装备,还能触发专属剧情任务,大幅提升你的游戏体验与探索自由度。 三角洲行动长弓溪谷密码汇总与2026密码获取全攻略 具体而言,长弓溪谷中的“2026密码”通常巧妙地隐藏在地图环

热心网友
05.01
DNF助手雪球活动有哪些注意事项
游戏攻略
DNF助手雪球活动有哪些注意事项

掌握DNF助手雪球活动核心玩法,轻松领取海量游戏奖励 在《地下城与勇士》的冒险旅程中,DNF助手雪球活动为玩家提供了一个绝佳的福利获取渠道。参与这项活动不仅能丰富游戏体验,更能为角色成长积累大量实用资源,有效提升刷图与攻坚副本的效率。 DNF助手雪球活动完整参与指南与核心注意事项 要高效参与活动,首

热心网友
05.01
京剧四大名旦之一是哪位表演艺术家
游戏攻略
京剧四大名旦之一是哪位表演艺术家

京剧作为中国的国粹,孕育了无数杰出的表演艺术大师。其中,梅兰芳、程砚秋、尚小云、荀慧生并称为“京剧四大名旦”,他们的艺术成就举世瞩目。那么,在知识问答或相关测试中,我们如何才能准确识别出哪位是四大名旦之一呢? 如何准确判断哪位表演艺术家属于京剧四大名旦 这既是一个经典的文化常识问题,也是一种有趣的互

热心网友
05.01
王者荣耀空空儿怎么出装
游戏攻略
王者荣耀空空儿怎么出装

王者荣耀空空儿出装与实战教学:掌握高爆发刺客的致胜秘诀 在《王者荣耀》这款游戏中,胜负的天平往往倾斜于对细节的把控。想要精通刺客位,仅有极快的手速是远远不够的,合理的装备搭配和精准的入场时机,才是区分顶级刺客与团队短板的核心要素。本期攻略,我们将深入解析高机动性刺客英雄空空儿,为你详细拆解如何在游戏

热心网友
05.01