中山大学SpatialDreamer:复杂空间推理新SOTA,性能提升55%

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】中山大学等机构最新推出的SpatialDreamer,通过整合主动心理想象与空间推理,在复杂空间任务中展现了显著的性能提升。该框架模拟人类主动探索、想象和推理的过程,有效克服了现有模型在视角变换等任务中的局限性,为人工智能在空间智能领域的发展开辟了新的路径。
尽管多模态大语言模型在场景理解方面已取得了显著进展,但在需要心理模拟的复杂空间推理任务上,其表现仍有不足。
现有方法多依赖于对空间数据的被动观察,未能融入人类在空间认知中特有的主动想象与动态更新内部表征的能力。
例如,在需要通过变换视角来判断遮挡物体位置的任务中,现有模型常因视角单一而导致推理失败。
为此,来自MBZUAI与中山大学的研究团队提出了SpatialDreamer。这是一个基于强化学习的框架,旨在通过“主动探索、视觉想象与证据融合”的闭环过程,赋予多模态大语言模型类人的空间心理模拟能力。

论文链接: https://arxiv.org/pdf/2512.07733

SpatialDreamer通过模拟人类的空间认知过程,构建了一个包含以下三个步骤的闭环推理流程:
1) 探索:模型根据当前场景推理出最优的自我中心动作(例如“前进0.75米”或“左转45度”);
2) 想象:调用世界模型(如SVC)生成执行该动作后的新视角图像;
3) 推理:整合所有累积的视觉证据,生成最终答案。
这一过程使模型从“被动观察”转向“主动目标导向的想象”,实现了在内部三维环境中,自主决定“看向哪里、看什么、如何推理”的能力。
为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO。这是一种结合树状采样结构与几何一致性约束的策略优化方法:
1) 树状采样:每一步采样多个动作分支,支持回溯与多路径探索;
2) 多级奖励设计:融合任务级奖励与步骤级奖励,提供细粒度反馈;
3) 几何惩罚机制:对冗余或冲突动作(如连续同向或反向移动)施加惩罚系数(例如0.9),鼓励生成高效的行动轨迹。
GeoPO在提升模型性能的同时,也显著加快了训练收敛速度。

为引导模型学习“思考-想象-回答”的模式,研究人员构建了SpatialDreamer-SFT数据集,包含单轮推理数据以及反思式推理数据。其中反思式推理通过“错误注入 → 自我纠正 → 重建推理链”的流程构建。
实验结果
研究团队在多个空间推理基准上验证了SpatialDreamer的有效性:
1) SAT:在真实与合成图像中均达到SOTA水平,平均准确率分别为93.9%与92.5%;
2) MindCube-Tiny:整体准确率84.9%,较基线模型Qwen2.5-VL-7B提升超过55%;
3) VSI-Bench:在物体计数、相对方向、路径规划等任务中全面领先,平均准确率为62.2%。
总结
迈向具备空间想象能力的通用智能
SpatialDreamer的意义不仅在于提升了空间推理的准确率,更关键的是:它证明了多模态大语言模型可以通过“想象力”来增强推理能力,正朝着人类般的空间智能迈出重要一步。
参考资料:
https://arxiv.org/pdf/2512.07733
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!

相关攻略
3月31日,苹果于今日凌晨开始分批推送国行Apple Intelligence Beta版,需升级至iOS 26 4及以上系统方可体验。彭博社记者马克·古尔曼今日发文称Apple Intellig
博鳌亚洲论坛2026年年会,vivo第五年以战略合作伙伴身份亮相。 2026年的春天,人工智能的浪潮依然在以一种令人目眩的速度狂飙。前有机器人在春晚舞台上翻转腾挪,后有OpenClaw引发全球
这项由北京大学计算机科学学院牵头,联合慕尼黑工业大学、北京交通大学等多个顶级研究机构的研究成果,发表于2026年3月,论文编号为arXiv:2603 19598v1。有兴趣深入了解的读者可以通过这个
快科技3月30日消息,华为智能汽车解决方案BU CEO靳玉志今日官宣称,华为乾崑ADS Pro今天起开始推送城市NCA辅助驾驶。他表示:去年11月华为乾崑生态大会上,我和大家预告说,ADS Pro将
企查查APP显示,近日,北京松延动力科技集团股份有限公司申请公布“一种仿生机器人表情控制方法、装置、设备、介质及产品”专利。专利摘要显示,获取对应多种控制类型的非视觉控制样本集,非视觉控制样本集中的
热门专题
热门推荐
3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro
Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界
格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。
顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,
小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”





