首页 游戏 软件 资讯 排行榜 专题
首页
AI
BabyVision评测评测:三岁幼儿使用多模态大模型实操指南

BabyVision评测评测:三岁幼儿使用多模态大模型实操指南

热心网友
84
转载
2026-01-12

1月12日,红杉中国旗下测评体系xBench与UniPat AI团队联合发布了全新的多模态理解测评集BabyVision。这一测评集旨在系统评估大模型在不依赖语言提示下的纯粹视觉基础能力。测试结果显示,当前主流多模态大模型在该测评中的整体表现,普遍落后于三岁幼儿的水平。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

该测评集将视觉能力划分为精细辨别、视觉追踪、空间感知和视觉模式识别四大类别,共涵盖22项子任务、388道题目。测评严格控制了语言依赖,确保题目信息无法被完全“文本化”,从而真实考察模型对视觉内容的理解能力。

最终测评结果显示,在BabyVision-Full测评集上,研究团队引入了人类基线作为参照:由至少16位具备本科背景的测试者完成了全部388道题目,人类平均准确率达到94.1%。

再看各大模型的表现:表现最佳的开源模型Gemini 3 Pro Preview准确率为49.7%,GPT-5.2为34.8%,国内模型Doubao-1.8为30.2%,开源模型Qwen3VL-235B-Thinking则为22.2%。多数模型的得分明显低于三岁儿童的平均水平。

多模态大模型输给三岁宝宝?新测评集BabyVision发布

研究团队指出,许多视觉信息本质上是“不可言说”的,一旦被压缩为语言描述就会丢失关键细节,导致模型在需要连续追踪、空间想象、几何归纳等任务中表现显著落后。为此,团队同步推出了生成式测评版本BabyVision-Gen,要求模型以绘图、标注等视觉方式作答。现阶段得出的结论是:

生成式推理在视觉追踪、精细辨别等多模态模型容易出错的任务上,展现出了更接近人类的行为模式,但整体仍然缺乏稳定达到完全正确解的能力。

BabyVision的发布,为多模态大模型与具身智能的发展提供了可量化、可诊断的评估工具,显示出当前视觉基础能力仍是AI迈向通用智能的关键短板。

来源:https://tech.ifeng.com/c/8pqhUP9WUa5
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌推出Veo 3.1 Lite视频模型,每秒生成成本仅0.05美元
AI
谷歌推出Veo 3.1 Lite视频模型,每秒生成成本仅0.05美元

IT之家 4 月 1 日消息,谷歌 DeepMind 昨日推出 Veo 3 1 Lite 视频模型,是该公司迄今为止最实惠的视频生成工具。最新数据显示,Lite 版的生成速度和 Fast 版本保持一

热心网友
04.01
DeepSeek三天两发故障透露信号:V4版更新在即?
AI
DeepSeek三天两发故障透露信号:V4版更新在即?

今天傍晚,DeepSeek再度出现服务异常,社交平台上不少用户反馈,对话过程中频繁遭遇“请检查网络后重试”或“服务器繁忙”等提示。目前,服务已恢复正常。这是三天之内DeepSeek第二次发生服务故障

热心网友
04.01
DeepSeek编码风格巨变:连续“罢工”背后的大招是什么?
AI
DeepSeek编码风格巨变:连续“罢工”背后的大招是什么?

3月29日晚至30日上午,在经历长达12小时的宕机后,DeepSeek“崩”上热搜。大量用户反映网页端和App提示“服务器繁忙”或无法响应,据了解,这是DeepSeek有史以来最长的一次“罢工”。而

热心网友
04.01
雷军公布小米MiMo V2 Pro大模型Text Arena刷榜全球前五战绩
AI
雷军公布小米MiMo V2 Pro大模型Text Arena刷榜全球前五战绩

IT之家 3 月 31 日消息,小米创办人、董事长兼 CEO 雷军今日分享了 MiMo-V2-Pro 大模型最新“战绩”。在大模型权威评测榜单 Text Arena,MiMo-V2-Pro 凭借在复

热心网友
03.31
古尔曼披露:苹果Apple Intelligence在中国意外上线后下线
礼仪与书信
古尔曼披露:苹果Apple Intelligence在中国意外上线后下线

3月31日,苹果于今日凌晨开始分批推送国行Apple Intelligence Beta版,需升级至iOS 26 4及以上系统方可体验。彭博社记者马克·古尔曼今日发文称Apple Intellig

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02