首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
大模型视觉能力比不过6岁小孩,为什么?

大模型视觉能力比不过6岁小孩,为什么?

热心网友
47
转载
2026-01-26

根据多家研究机构最新发布的BabyVision视觉推理基准测试结果,目前性能最强的多模态大模型,在视觉推理能力上依然远未达到人类儿童的认知水平。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

即便是表现最佳的Gemini 3 Pro Preview,其综合得分仅勉强超过3岁儿童,与6岁儿童相比仍有约20%的明显差距,距离成年人高达94.1%的准确率更是存在巨大鸿沟。

最强大模型的视觉能力不如 6 岁小孩

这项研究由UniPat AI、xbench、阿里巴巴、月之暗面、阶跃星辰等多家前沿团队联合开展。数据显示,Gemini 3 Pro Preview 以49.7%的得分位居闭源模型榜首;紧随其后的是 GPT‑5.2(34.4%)与豆包 Seed‑1.8(30.2%)。

其余模型得分普遍偏低:Qwen3‑VL‑Plus 为19.2%,Grok‑4 为16.2%,Claude 4.5 Opus 仅为14.2%。在开源阵营中,Qwen3VL‑235B‑Thinking 以22.2%的成绩暂列第一,但仍未具备与主流闭源模型抗衡的实力。

研究指出,当前主流多模态大模型普遍依赖“视觉转语言”的推理模式——即先将图像编码为文本式表征,再交由语言模型完成后续逻辑推演。

这种架构在应对细粒度几何判断、空间方位关系建模、路径连续性跟踪等高度依赖非语言感知能力的任务时,存在本质性局限,致使模型在“找不同”“连线匹配”“空间构型想象”“视觉规律归纳”等典型任务中频繁失效。

BabyVision 基准将视觉推理能力划分为四大核心维度:细粒度辨别、视觉跟踪、空间感知与视觉模式识别。结果显示,所有参测模型在这四个方向均暴露出系统性短板。

例如,Gemini 3 Pro Preview 在拼图配对、轨迹连线及三维结构反推任务中多次给出错误响应;Qwen3‑VL‑Plus 同样未能通过视觉规律归纳类题目的检验。

研究团队进一步提炼出模型视觉推理所面临的四类根本性挑战:

  1. 非言语性细微信息难以保真,导致模型无法识别图像间细微差异;
  2. 流形一致性缺失,使其在复杂动态路径中难以维持稳定跟踪;
  3. 空间想象能力薄弱,无法从二维输入可靠构建一致的三维心理表征;
  4. 视觉模式抽象与归纳能力不足,难以从有限示例中提炼可泛化的结构规则。

为突破现有“语言中心化”视觉推理范式的瓶颈,研究提出了两条可行的技术演进路径:基于可验证奖励信号的强化学习(RLVR)与基于生成模型的原生视觉推理。

实验表明,Qwen3‑VL‑8B‑Thinking 经 RLVR 微调后,整体准确率提升约4.8个百分点;而在 BabyVision‑Gen 的生成式推理子集测试中,NanoBanana‑Pro 以18.3%的准确率领先于 GPT‑Image‑1.5 与 Qwen‑Image‑Edit。

研究认为,未来多模态智能的发展重心,正加速从“语言驱动型理解”转向“视觉原生型推理”。诸如 Bagel 这样的统一架构,以及具备显式物理建模能力的新一代生成模型(如 Sora 2、Veo 3),已在实践中展现出在视觉空间中执行显式推理的潜力——包括绘制中间演化步骤、标注关键语义区域、生成符合物理约束的运动轨迹等。

研究团队强调,生成过程本身,或将成为一种更高阶、更本质的推理表达形式。

论文全文:

来源:https://www.php.cn/faq/2034484.html?uid=1246273
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

G胖退出Valve游戏开发 怕员工不敢反驳
游戏资讯
G胖退出Valve游戏开发 怕员工不敢反驳

V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与

热心网友
04.05
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望
科技数码
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望

红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“

热心网友
04.05
金铲铲之战S17天煞羁绊效果一览
游戏攻略
金铲铲之战S17天煞羁绊效果一览

金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1

热心网友
04.05
蓝点工作室被索尼移除 第一方阵容调整
游戏资讯
蓝点工作室被索尼移除 第一方阵容调整

索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页

热心网友
04.05
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售
科技数码
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售

未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能

热心网友
04.05