首页 游戏 软件 资讯 排行榜 专题
首页
AI
多校联合研发MILO模型,诊断大模型“视觉文盲”并注入空间想象力

多校联合研发MILO模型,诊断大模型“视觉文盲”并注入空间想象力

热心网友
32
转载
2025-12-05

当前大多数方法依赖"语言描述式调优",即通过文本符号让模型学习空间概念,却从未真正"看见"这些概念在视觉上的表现,导致模型出现"视觉文盲"现象——生成回应时难以聚焦正确的视觉区域。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

大型模型总是难以把握空间维度,就像我们无法想象四维世界一样。

空间推理是人类理解三维世界结构的核心认知能力,也是多模态大语言模型在实际应用中的关键挑战。

现有技术主要通过语言指令让模型理解空间关系,但缺乏对视觉场景的直观认知。这使得模型在回答涉及空间方位的问题时,往往无法准确关联对应的视觉元素。

图片图片

如图所示,基线模型在回答关于"木椅"的问题时,其视觉注意力并未集中在目标区域,而是散落在无关区域。这反映出当前多模态大语言模型在空间语义与视觉感知之间缺乏跨模态对齐,难以像人类那样通过心理意象来支撑空间推理。

MILO:为模型植入"空间想象力"

为解决上述问题,由多所高校和研究机构组成的团队提出了MILO,一种隐式空间世界建模范式。该方法通过引入视觉生成反馈,将符号推理与感知经验隐式结合。

图片图片

1. 从"看到"到"想到"

MILO在传统语言调优的基础上,创新性地引入视觉生成调优,构建包含两个阶段的训练流程:

视觉生成调优阶段:模型接收几何变换指令,调用视觉扩散模型生成对应的新视角图像,从而学习空间变换在视觉上的表现;语言调优阶段:在视觉生成调优之后,继续使用空间指令数据对模型进行语言层面的微调。

通过这种训练方式,MILO使模型能够内化几何变换的视觉表现,建立起类似人类的隐式空间世界模型。

2. 摆脱绝对坐标,学会相对感知

为了进一步增强模型的几何感知能力,研究团队提出了RePE,一种基于相机位姿变换的相对位置编码方案。

与传统的绝对坐标系编码不同,RePE不依赖于全局坐标系,而是捕捉相邻帧之间的相对变换,从而具备更好的泛化性与跨数据集适应性。

构建几何世界的"教科书"

研究团队构建了GeoGen数据集,这是一个包含约2,241个视频和26.7万个"观测-动作-结果"三元组的大规模几何感知生成数据集。GeoGen涵盖两类核心任务:

新视角合成:根据指令生成相机移动后的新视图;轨迹生成:根据起点和终点生成相机运动路径,要求模型理解场景的整体几何结构。

数据来源包括扫描的3D场景和互联网视频,确保了数据的多样性和真实性。

图片图片

五大任务全面验证

研究团队在多个基线模型和五大类空间理解任务上验证了MILO的有效性:

图片

3D场景理解任务:在ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D等基准上,MILO均取得最优性能,尤其在ScanRefer上Acc@0.25提升3.2%;空间推理任务:在VSI-Bench上平均准确率达61.7%,超越基线VG-LLM 2.2%;具身任务:在RefSpatial-Bench的三个子集上全面领先,尤其在未见组合关系任务上提升1.3%。

作者:Meng Cao, Haokun Lin, Haoyuan Li, Haoran Tang, Rongtao Xu, Dong An, Xue Liu, Ian Reid, Xiaodan Liang

单位:Mohamed bin Zayed University of Artificial Intelligence;Sun Yat-sen University;Peking University;Spatial-Temporal AI

论文:https://arxiv.org/pdf/2512.01821

来源:https://www.51cto.com/article/831215.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

重返未来1999梁月塑造如何抽取
游戏攻略
重返未来1999梁月塑造如何抽取

重返未来1999梁月塑造抽取攻略:优先级分析与资源规划 在《重返未来1999》中,梁月作为队伍的核心输出角色,其塑造等级的提升策略直接影响阵容的整体强度与通关上限。许多玩家在面对不同塑造等级的选择时,常常感到困惑。本文将深入解析梁月各阶段塑造的实际价值,助你高效规划抽取资源,实现战力最大化。 重返未

热心网友
04.15
3A大作不香了!近6成PC游戏收入来自小厂 玩家:大厂炒冷饭、GaaS劝退
游戏资讯
3A大作不香了!近6成PC游戏收入来自小厂 玩家:大厂炒冷饭、GaaS劝退

全球游戏市场格局生变:玩家时间与消费正流向“腰部”与“长尾”游戏 快科技4月15日消息,知名市场分析机构Newzoo最新发布的《2026年PC与主机游戏报告》揭示了一个深刻的行业结构性变化。市场表面看似稳定,实则内部增长动力正在发生关键性迁移。 报告的核心洞察指出:虽然顶级的3A大作依然占据媒体头条

热心网友
04.15
大润发优鲜如何查看订单
手机教程
大润发优鲜如何查看订单

在大润发优鲜购物后,如何轻松查看订单详情? 在大润发优鲜平台完成购物后,查看订单是掌握配送进度、核对购物详情以及处理售后事宜的关键一步。那么,具体该如何操作呢?流程其实相当清晰。 首先,需要打开大润发优鲜App。进入应用主界面后,注意力可以放在底部的菜单栏上,那里通常会有一个名为“我的”的选项。点击

热心网友
04.15
S.H.I.T Journal(抖音SHIT) S.H.I.T Journal探索学术去中心化与社区自治的创新模式
AI
S.H.I.T Journal(抖音SHIT) S.H.I.T Journal探索学术去中心化与社区自治的创新模式

S H I T Journal(抖音SHIT)产品介绍 S H I T Journal 网站介绍 说到打破学术壁垒、革新传统出版模式,有一个平台不得不提——S H I T Journal。它正尝试用一种前所未有的方式,将学术评价与发表的权利交还给社区本身。这个平台不仅构建了一个开放的投稿与审稿生态,

热心网友
04.15
GOMPlayer怎么设置视频满屏播放
手机教程
GOMPlayer怎么设置视频满屏播放

GOM Player 全屏播放设置指南:一键开启沉浸式观影模式 想要获得更具冲击力、无干扰的视频观看体验吗?将播放画面铺满整个屏幕是实现沉浸式观影最有效的方式之一。作为一款广受欢迎的多媒体播放软件,GOM Player 提供了直观且灵活的全屏播放设置选项。本文将为您系统讲解几种启用全屏模式的方法,并

热心网友
04.15