游乐游手机版
首页/科技数码/文章详情

大模型视觉能力比不过6岁小孩,为什么?

时间:2026-01-26 21:52
多家研究机构最新发布的 BabyVision 视觉推理基准测试结果表明,当前性能最强的多模态大模型,在视觉推理能力上依然远未达到人类儿童的认知水平。即便是表现最优的 Gemini

根据多家研究机构最新发布的BabyVision视觉推理基准测试结果,目前性能最强的多模态大模型,在视觉推理能力上依然远未达到人类儿童的认知水平。

即便是表现最佳的Gemini 3 Pro Preview,其综合得分仅勉强超过3岁儿童,与6岁儿童相比仍有约20%的明显差距,距离成年人高达94.1%的准确率更是存在巨大鸿沟。

最强大模型的视觉能力不如 6 岁小孩

这项研究由UniPat AI、xbench、阿里巴巴、月之暗面、阶跃星辰等多家前沿团队联合开展。数据显示,Gemini 3 Pro Preview 以49.7%的得分位居闭源模型榜首;紧随其后的是 GPT‑5.2(34.4%)与豆包 Seed‑1.8(30.2%)。

其余模型得分普遍偏低:Qwen3‑VL‑Plus 为19.2%,Grok‑4 为16.2%,Claude 4.5 Opus 仅为14.2%。在开源阵营中,Qwen3VL‑235B‑Thinking 以22.2%的成绩暂列第一,但仍未具备与主流闭源模型抗衡的实力。

研究指出,当前主流多模态大模型普遍依赖“视觉转语言”的推理模式——即先将图像编码为文本式表征,再交由语言模型完成后续逻辑推演。

这种架构在应对细粒度几何判断、空间方位关系建模、路径连续性跟踪等高度依赖非语言感知能力的任务时,存在本质性局限,致使模型在“找不同”“连线匹配”“空间构型想象”“视觉规律归纳”等典型任务中频繁失效。

BabyVision 基准将视觉推理能力划分为四大核心维度:细粒度辨别、视觉跟踪、空间感知与视觉模式识别。结果显示,所有参测模型在这四个方向均暴露出系统性短板。

例如,Gemini 3 Pro Preview 在拼图配对、轨迹连线及三维结构反推任务中多次给出错误响应;Qwen3‑VL‑Plus 同样未能通过视觉规律归纳类题目的检验。

研究团队进一步提炼出模型视觉推理所面临的四类根本性挑战:

  1. 非言语性细微信息难以保真,导致模型无法识别图像间细微差异;
  2. 流形一致性缺失,使其在复杂动态路径中难以维持稳定跟踪;
  3. 空间想象能力薄弱,无法从二维输入可靠构建一致的三维心理表征;
  4. 视觉模式抽象与归纳能力不足,难以从有限示例中提炼可泛化的结构规则。

为突破现有“语言中心化”视觉推理范式的瓶颈,研究提出了两条可行的技术演进路径:基于可验证奖励信号的强化学习(RLVR)与基于生成模型的原生视觉推理。

实验表明,Qwen3‑VL‑8B‑Thinking 经 RLVR 微调后,整体准确率提升约4.8个百分点;而在 BabyVision‑Gen 的生成式推理子集测试中,NanoBanana‑Pro 以18.3%的准确率领先于 GPT‑Image‑1.5 与 Qwen‑Image‑Edit。

研究认为,未来多模态智能的发展重心,正加速从“语言驱动型理解”转向“视觉原生型推理”。诸如 Bagel 这样的统一架构,以及具备显式物理建模能力的新一代生成模型(如 Sora 2、Veo 3),已在实践中展现出在视觉空间中执行显式推理的潜力——包括绘制中间演化步骤、标注关键语义区域、生成符合物理约束的运动轨迹等。

研究团队强调,生成过程本身,或将成为一种更高阶、更本质的推理表达形式。

论文全文:

来源:https://www.php.cn/faq/2034484.html?uid=1246273
上一篇苹果管理层调整释放接班信号,硬件高管成下任CEO热门人选 下一篇周鸿祎:2026年智能设备规模或超百亿
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5