首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
大模型视觉能力大挑战:多数不及3岁儿童

大模型视觉能力大挑战:多数不及3岁儿童

热心网友
68
转载
2026-01-12

(文/万肇生 编辑/张广凯)

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

大模型的视觉处理能力虽不如语言推理那样惊艳,但一项最新的测试结果,仍显得十分残酷。

1月12日,红杉中国xbench携手UniPatAI团队对外发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力。

UniPatAI发布的技术论文显示,该评测集首轮测试的结果中,当前绝大多数顶尖多模态大模型的视觉任务表现,都要显著低于 3 岁儿童水平,仅仅有一款模型勉强超过3岁基线。


而出现体感上的如此巨大的反差,倒也好理解,主要是由于日常中模型强大的语言推理能力,掩盖了其视觉信息处理能力的不足。

通常情况下,大模型在面对图像问题时,会使用文字对问题进行描述。虽然视觉信息转为文字描述有局限性,但模型会通过强大的语言推理能力,来理解并解决视觉问题。然而需要注意的是,这并不是真正的视觉能力,而是一种基于文字信息的推理能力,因此当大模型一旦失去语言能力的加持,其在视觉信息处理中,短板就暴露无遗。

几乎在测模型都不如3岁小孩

基于此,UniPatAI团队成员们为用于首轮测试的BabyVision-Mini,设计了包含20道视觉中心任务,并严格控制语言依赖,所有题目答案均需完全依靠视觉信息得出。同时,团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童,作为对照组,进行测试。

其结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距。


比如在BabyVision-Mini中一道垃圾分类连线题,要求将"塑料杯""废报纸""苹果核"分别通过路径连线到对应颜色的垃圾桶,正确答案为A-蓝、B-黄、C绿。

三岁儿童仅凭本能就能从起点沿线追踪至终点,轻松完成作答,而最强的Gemini3-Pro-Preview虽写下大段"逐段追踪"的推理过程,最终仍给出A-绿、B-黄、C-蓝的错误答案。


随后团队又将测试扩展到包含388道题目的全量BabyVision-Full评测,此时人类对照组的16位本科以上背景参与者,准确率已经高达94.1%。

而大模型方面,在Mini测试中,表现最佳的闭源模型Gemini3-Pro-Preview,此时准确率也仅为49.7%。开源模型中最强的Qwen3VL-235B-Thinking,则整体不足22.2%,而其他开源模型得分集中在12%-19%区间。

视觉能力的全方位不足

需要注意的是,UniPat AI的技术论文还特别指出,这不仅仅是大模型的单一方面不足,而是视觉能力的四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上的全方位不足,说明这是大模型基础视觉能力存在系统性缺失。


对此,团队统计出了模型主要面临四大典型挑战:

第一类挑战来自“非语言细节”的缺失。人类在处理拼图补全等任务时,能凭几何直觉直接感知边界对齐、微小凸起等像素级差异;而模型一旦将下图四个选项的形状描述为“像钩子、有两个腿”等语言概括,细微的视觉差异就被抹平,选项在token空间里变得“几乎一样”。



Gemini3-Pro-Preview这道题里选择了D,而非B。

第二类挑战就体现在轨迹追踪任务中,如上文的“垃圾分类”问题。人类是锁定一条线,并一路追到终点。而模型则会将翻译成“左/右/上/下”的离散步骤,难以保持统连续性。因此,一旦遇到交叉点,就容易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”。

第三类系空间想象能力缺失。在三维方块计数、视角投影、遮挡结构判断等任务中,人类会在脑海中保持三维结构的形状,并变换视角进行判断,这是空间想象能力的体现。而模型依靠语言推理,但文字描述并非真实,最终导致漏掉隐藏块,搞错投影关系。



Gemini3在这里将图形高度按照数字进行标记,但错误将右侧竖列后排为4的积木忽略,最终计为前排平台的2,因此得到了错误答案C。

最后一大挑战则是图形规律归纳难题。此类题目要求从少量视觉示例中找规则。人类做的是关系映射,确定变化,而模型则会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则。



阿里千问在将图形拆解成8等分后,成功判断出棕色部分应该在顶部,然而却将C选项“看花眼”

对此,研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中有许多题目具有"unspeakable"(不可言说)的特性———即无法在不损失信息的情况下被完整语言化。

如此一来,人类只需要简单通过指一指、圈一圈、沿线路径追踪等直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,这一过程中,大量关键细节会丢失,最终导致推理失误。

然而这也不是没有办法。研究团队通过让视觉推理“落地到视觉操作”上,Sora2一笔一划,最终成功绘制了左上角鳄鱼的连线图像。


美中不足的是,Sora2也仅画对了鳄鱼这一条线,而其他模型则是一条线也没有成功。但或许未来通过让模型进行绘画、临摹等方式进行推理,可以恢复大模型的文字推理所缺失的能力。

因此该团队写道,“很难想象一个视觉能力低于3岁儿童的机器人,能够可靠地在真实物理世界里帮助人类”。团队认为,为了推动多模态智能的发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理。

来源:https://www.163.com/dy/article/KJ3MJBCV051481US.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

多模态创意营销工具Claw全球首发,让好创意更具商业价值
科技数码
多模态创意营销工具Claw全球首发,让好创意更具商业价值

最近有支叫《霍去病》的 AI 短片让我印象深刻,播放量轻松破亿,逼真得让人以为是重工业大制作。真相是:3 个人,48 小时,从立项到成片。 核心创作者还不是影视科班出身,人家之前只是一名内容运营。同

热心网友
03.27
费元华分享:AI时代,审美的情感竞争力才是核心
科技数码
费元华分享:AI时代,审美的情感竞争力才是核心

3月27日至29日,2026全球开发者先锋大会(GDPS 2026)在上海西岸国际会展中心举行。在“AI+时代的企业创新与OPC发展论坛”上,上海智灵新境科技有限公司CEO费元华分享观点称:情感与审

热心网友
03.27
蔚来CEO卢放谈视觉与激光雷达:真安全是看清而非仅看见
编程语言
蔚来CEO卢放谈视觉与激光雷达:真安全是看清而非仅看见

3月26日消息,近日,长城魏牌CEO赵永坡发布视频谈到辅助驾驶传感器,其直言称“激光雷达数量越多,体验并不一定会越好,堆硬件有时是取巧。”这样的观点显然并不被所有人认可,今日下午,岚图汽车CEO卢放

热心网友
03.26
它石智航发布OmniVTA模型:从被动感知到理解接触的视觉新突破
AI
它石智航发布OmniVTA模型:从被动感知到理解接触的视觉新突破

新智元报道编辑:犀牛【新智元导读】从「被动感知」到「主动预测」,首个视触觉世界模型让机器人真正学会「理解接触」。想象这样一个场景:你正在擦桌子、削水果,或者插拔一个精密零件。这些动作对人类来说轻而易

热心网友
03.26
商汤徐立谈AI规模化爆发:语言与视觉融合是突破智能上限路径
科技数码
商汤徐立谈AI规模化爆发:语言与视觉融合是突破智能上限路径

“语言与视觉的深度融合是突破智能上限的高效路径。”3月24日晚间,在人工智能公司商汤集团股份有限公司(商汤-W,0020 HK)业绩会上,商汤科技董事长兼CEO徐立表示:“我们深信语言与视觉的深度融

热心网友
03.26

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

Intel RAID配置与创建超详细步骤指南
电脑教程
Intel RAID配置与创建超详细步骤指南

惠普部分型号支持主板集成RAID功能,用户可在系统启动阶段进入RAID配置环境,完成磁盘阵列的创建与维护操作。1、 开机过程中,根据屏幕提示,同时按下 Ctrl + I 组合键,即

热心网友
03.29
CISA警告:F5 BIG-IP漏洞正遭活跃利用,需立即防护
科技数码
CISA警告:F5 BIG-IP漏洞正遭活跃利用,需立即防护

F5公司已发布解决方案指南,强烈建议各组织立即遵循最新缓解步骤。 美国网络安全和基础设施安全局(CISA)已将新披露的F5 BIG-IP系统漏洞纳入其已知已利用漏洞(KEV)目录,警告该漏洞正在真实

热心网友
03.29
Helium10插件安装指南:Chrome扩展简单3步搞定
手机教程
Helium10插件安装指南:Chrome扩展简单3步搞定

helium10 chrome插件怎么安装?helium10浏览器扩展安装故障排查解答在电商运营的世界里,helium10可是一款相当强大的工具。而它的chrome插件安装,对于很

热心网友
03.29
85万豪车发动机被4S店偷换,车主6年后维权索赔
编程语言
85万豪车发动机被4S店偷换,车主6年后维权索赔

3月29日消息,据报道,此前,许先生以所在公司名义花费85万元购置了一辆玛莎拉蒂,后续在苏州某玛莎拉蒂4S店完成维保及延保办理。2019年5月,该车行驶中突发熄火故障,送至该4S店检修后,店方告知需

热心网友
03.29
幻兽帕鲁帕鲁农场下载安装教程:快速获取与完整指南
游戏攻略
幻兽帕鲁帕鲁农场下载安装教程:快速获取与完整指南

幻兽帕鲁中的帕鲁农场充满了奇幻与趣味,吸引了众多玩家想要体验。那么,它该如何下载安装呢?接下来为大家详细介绍。首先,要确定你的设备系统是否支持。幻兽帕鲁目前支持多种主流移动设备系统

热心网友
03.29