中山大学SpatialDreamer：复杂空间推理新SOTA，性能提升55%

首页

AI资讯

热心网友

转载

2025-12-20

新智元报道

编辑：LRST

【新智元导读】中山大学等机构最新推出的SpatialDreamer，通过整合主动心理想象与空间推理，在复杂空间任务中展现了显著的性能提升。该框架模拟人类主动探索、想象和推理的过程，有效克服了现有模型在视角变换等任务中的局限性，为人工智能在空间智能领域的发展开辟了新的路径。

尽管多模态大语言模型在场景理解方面已取得了显著进展，但在需要心理模拟的复杂空间推理任务上，其表现仍有不足。

现有方法多依赖于对空间数据的被动观察，未能融入人类在空间认知中特有的主动想象与动态更新内部表征的能力。

例如，在需要通过变换视角来判断遮挡物体位置的任务中，现有模型常因视角单一而导致推理失败。

为此，来自MBZUAI与中山大学的研究团队提出了SpatialDreamer。这是一个基于强化学习的框架，旨在通过“主动探索、视觉想象与证据融合”的闭环过程，赋予多模态大语言模型类人的空间心理模拟能力。

论文链接: https://arxiv.org/pdf/2512.07733

SpatialDreamer通过模拟人类的空间认知过程，构建了一个包含以下三个步骤的闭环推理流程：

1) 探索：模型根据当前场景推理出最优的自我中心动作（例如“前进0.75米”或“左转45度”）；

2) 想象：调用世界模型（如SVC）生成执行该动作后的新视角图像；

3) 推理：整合所有累积的视觉证据，生成最终答案。

这一过程使模型从“被动观察”转向“主动目标导向的想象”，实现了在内部三维环境中，自主决定“看向哪里、看什么、如何推理”的能力。

为解决长序列推理任务中奖励稀疏的问题，研究团队提出了GeoPO。这是一种结合树状采样结构与几何一致性约束的策略优化方法：

1) 树状采样：每一步采样多个动作分支，支持回溯与多路径探索；

2) 多级奖励设计：融合任务级奖励与步骤级奖励，提供细粒度反馈；

3) 几何惩罚机制：对冗余或冲突动作（如连续同向或反向移动）施加惩罚系数（例如0.9），鼓励生成高效的行动轨迹。

GeoPO在提升模型性能的同时，也显著加快了训练收敛速度。

为引导模型学习“思考-想象-回答”的模式，研究人员构建了SpatialDreamer-SFT数据集，包含单轮推理数据以及反思式推理数据。其中反思式推理通过“错误注入 → 自我纠正 → 重建推理链”的流程构建。

实验结果

研究团队在多个空间推理基准上验证了SpatialDreamer的有效性：

1) SAT：在真实与合成图像中均达到SOTA水平，平均准确率分别为93.9%与92.5%；

2) MindCube-Tiny：整体准确率84.9%，较基线模型Qwen2.5-VL-7B提升超过55%；

3) VSI-Bench：在物体计数、相对方向、路径规划等任务中全面领先，平均准确率为62.2%。

总结

迈向具备空间想象能力的通用智能

SpatialDreamer的意义不仅在于提升了空间推理的准确率，更关键的是：它证明了多模态大语言模型可以通过“想象力”来增强推理能力，正朝着人类般的空间智能迈出重要一步。

参考资料：

https://arxiv.org/pdf/2512.07733

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

来源:https://www.163.com/dy/article/KH8D07M70511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：日本32岁女子与AI伴侣结婚：AR眼镜见证AI丈夫交换戒指下一篇：一线城市之首：深圳已投放1218台全功能无人车

相关攻略

AI资讯

CVPR 2025 线性视觉Transformer重构实现精度与效率平衡

在图像分类、目标检测和语义分割等核心计算机视觉任务中，Transformer凭借其强大的全局特征建模能力，已成为主流技术架构。然而，其自注意力机制存在的二次计算复杂度问题，严重阻碍了其在手机、平板等移动设备上的高效部署。如何在资源受限的端侧设备上实现视觉Transformer的轻量化，同时保持其关键

热心网友

05.20