首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
中山大学SpatialDreamer:复杂空间推理新SOTA,性能提升55%

中山大学SpatialDreamer:复杂空间推理新SOTA,性能提升55%

热心网友
80
转载
2025-12-20


新智元报道

编辑:LRST

【新智元导读】中山大学等机构最新推出的SpatialDreamer,通过整合主动心理想象与空间推理,在复杂空间任务中展现了显著的性能提升。该框架模拟人类主动探索、想象和推理的过程,有效克服了现有模型在视角变换等任务中的局限性,为人工智能在空间智能领域的发展开辟了新的路径。

尽管多模态大语言模型在场景理解方面已取得了显著进展,但在需要心理模拟的复杂空间推理任务上,其表现仍有不足。

现有方法多依赖于对空间数据的被动观察,未能融入人类在空间认知中特有的主动想象与动态更新内部表征的能力。

例如,在需要通过变换视角来判断遮挡物体位置的任务中,现有模型常因视角单一而导致推理失败。

为此,来自MBZUAI与中山大学的研究团队提出了SpatialDreamer。这是一个基于强化学习的框架,旨在通过“主动探索、视觉想象与证据融合”的闭环过程,赋予多模态大语言模型类人的空间心理模拟能力。


论文链接: https://arxiv.org/pdf/2512.07733


SpatialDreamer通过模拟人类的空间认知过程,构建了一个包含以下三个步骤的闭环推理流程:

1) 探索:模型根据当前场景推理出最优的自我中心动作(例如“前进0.75米”或“左转45度”);

2) 想象:调用世界模型(如SVC)生成执行该动作后的新视角图像;

3) 推理:整合所有累积的视觉证据,生成最终答案。

这一过程使模型从“被动观察”转向“主动目标导向的想象”,实现了在内部三维环境中,自主决定“看向哪里、看什么、如何推理”的能力。

为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO。这是一种结合树状采样结构与几何一致性约束的策略优化方法:

1) 树状采样:每一步采样多个动作分支,支持回溯与多路径探索;

2) 多级奖励设计:融合任务级奖励与步骤级奖励,提供细粒度反馈;

3) 几何惩罚机制:对冗余或冲突动作(如连续同向或反向移动)施加惩罚系数(例如0.9),鼓励生成高效的行动轨迹。

GeoPO在提升模型性能的同时,也显著加快了训练收敛速度。


为引导模型学习“思考-想象-回答”的模式,研究人员构建了SpatialDreamer-SFT数据集,包含单轮推理数据以及反思式推理数据。其中反思式推理通过“错误注入 → 自我纠正 → 重建推理链”的流程构建。

实验结果

研究团队在多个空间推理基准上验证了SpatialDreamer的有效性:

1) SAT:在真实与合成图像中均达到SOTA水平,平均准确率分别为93.9%与92.5%;

2) MindCube-Tiny:整体准确率84.9%,较基线模型Qwen2.5-VL-7B提升超过55%;

3) VSI-Bench:在物体计数、相对方向、路径规划等任务中全面领先,平均准确率为62.2%。

总结

迈向具备空间想象能力的通用智能

SpatialDreamer的意义不仅在于提升了空间推理的准确率,更关键的是:它证明了多模态大语言模型可以通过“想象力”来增强推理能力,正朝着人类般的空间智能迈出重要一步。

参考资料:

https://arxiv.org/pdf/2512.07733

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


来源:https://www.163.com/dy/article/KH8D07M70511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

CVPR 2025 线性视觉Transformer重构实现精度与效率平衡
AI资讯
CVPR 2025 线性视觉Transformer重构实现精度与效率平衡

在图像分类、目标检测和语义分割等核心计算机视觉任务中,Transformer凭借其强大的全局特征建模能力,已成为主流技术架构。然而,其自注意力机制存在的二次计算复杂度问题,严重阻碍了其在手机、平板等移动设备上的高效部署。如何在资源受限的端侧设备上实现视觉Transformer的轻量化,同时保持其关键

热心网友
05.20
开源通用视觉推理RL框架零思考数据刷新SOTA刘壮陈丹琦新作
AI资讯
开源通用视觉推理RL框架零思考数据刷新SOTA刘壮陈丹琦新作

通用视觉推理的强化学习框架开源版本正式发布,为AI社区带来突破性进展。 这项名为Vero的研究项目由普林斯顿大学刘壮团队主导,陈丹琦教授参与协作。项目基于创新的方法论构建,其视觉推理模型在图表解析、科学问答、空间关系判断及多样化开放视觉任务中均展现出卓越性能。尤为突出的是,该模型在超过30项权威基准

热心网友
05.19
视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈
AI资讯
视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈

新加坡国立大学团队提出TGO方法,无需依赖成对偏好数据,可直接利用单个样本的标量评分优化视觉生成模型。该方法通过估计分数阈值划分伪正负例,并依分数距离加权训练,在图像与视频生成任务中有效提升性能,为利用真实场景标量反馈提供了新途径。

热心网友
05.18
IP SH城市视觉版权交易系统五年焕新升级
科技数码
IP SH城市视觉版权交易系统五年焕新升级

寻找上海的城市视觉素材,既要新、又要多、还得可靠,有没有一个地方能同时满足这些要求? 最近有个平台做了件挺实在的事。IP SHANGHAI,这个上海的城市形象资源共享平台,为了庆祝上线五周年,对其视觉版权交易系统进行了一次重要升级。核心变化在于,创作者现在可以自主为上传的原创图片和视频设定价格,而使

热心网友
05.12
美剧续作越拍越好的反常识密码
娱乐
美剧续作越拍越好的反常识密码

续集魔咒是 Hollywood 铁律——《Beef》第二季却打破了它 说来有趣,这部口碑不降反升的亚裔复仇剧续作,让观众印象最深的,往往不是那些戏剧性的剧情转折,而是每一集里一闪而过的怪诞画作。这本身,就挺反常的。 正方:视觉符号才是续作的灵魂 通常来说,续集为了维持热度,要么堆砌新角色,要么制造更

热心网友
04.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位
web3.0
比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位

现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急

热心网友
05.23
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析
web3.0
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析

目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显

热心网友
05.23
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破
web3.0
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破

近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进

热心网友
05.23
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续
web3.0
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续

DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么

热心网友
05.23
欧易OKX官方APP下载指南 安全交易入口与安装教程
web3.0
欧易OKX官方APP下载指南 安全交易入口与安装教程

如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,

热心网友
05.23