游乐游手机版
首页/科技数码/文章详情

中山大学SpatialDreamer推理效率提升55%,登顶复杂空间SOTA

时间:2025-12-22 21:07
【导读】中山大学等机构推出SpatialDreamer,通过主动心理想象和空间推理,显著提升了复杂空间任务的性能。模拟人类主动探索、想象和推理的过程,解决了现有模型在视角变换等任务中的局限,为人工智

【导读】中山大学等研究机构推出的SpatialDreamer,凭借其主动心理想象与空间推理能力,显著提升了AI在复杂空间任务中的表现。该技术通过模拟人类主动探索、想象和推理的认知过程,有效解决了现有模型在视角变换等任务中因视角单一而推理受限的困境,为人工智能的空间智能发展开辟了新方向。

尽管多模态大语言模型在场景理解方面已取得长足进步,但在需要心理模拟的复杂空间推理任务上,其表现仍有明显局限。

现有方法多依赖于对空间数据的被动观察,缺乏人类在空间认知中所特有的主动想象与动态更新内部表征的能力。

例如,在需要变换视角以判断遮挡物体位置的任务中,现有模型常因视角固定而推理失败。

为此,MBZUAI与中山大学的研究团队提出了SpatialDreamer,这是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力。

论文链接: https://arxiv.org/pdf/2512.07733

SpatialDreamer模拟人类的空间认知过程,构建了一个包含以下三个步骤的闭环推理流程:

1) 探索:模型根据当前场景推理出最优的自我中心动作(如“前进0.75米”或“左转45度”);

2) 想象:调用世界模型生成执行动作后的新视角图像;

3) 推理:整合所有累积的视觉证据,生成最终答案。

该过程使模型从“被动观察”转向“主动目标导向的想象”,实现在内部三维环境中自主决定“去哪儿看、看什么、如何推理”。

为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO,一种结合树状采样结构与几何一致性约束的策略优化方法:

1) 树状采样:每步采样多个动作分支,支持回溯与多路径探索;

2) 多级奖励设计:融合任务级奖励与步级奖励,提供细粒度反馈;

3) 几何惩罚机制:对冗余或冲突动作施加惩罚系数,鼓励高效轨迹生成。

GeoPO在提升模型性能的同时,也显著加快了训练收敛速度。

为进一步引导模型学习“思考-想象-回答”的模式,团队构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及反思式推理数据。其中反思式推理通过“错误注入 → 自我纠正 → 重建推理链”的方式构建。

实验结果

研究团队在多个空间推理基准上验证了SpatialDreamer的有效性:

1) SAT:在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5%;

2) MindCube-Tiny:整体准确率84.9%,较基线模型Qwen2.5-VL-7B提升超过55%;

3) VSI-Bench:在物体计数、相对方向、路径规划等任务中全面领先,平均准确率62.2%。

迈向具备空间想象能力的通用智能

SpatialDreamer的意义不仅在于提升空间推理准确率,更关键的是:它证明了MLLMs可以通过“想象力”增强推理能力,向人类般的空间智能迈出了重要一步。

参考资料:https://arxiv.org/pdf/2512.07733

来源:https://36kr.com/p/3606534796969223
上一篇三星明年推折叠手机Galaxy Z Fold,直面iPhone挑战 下一篇旧手机隐私不泄露,新国标处理全攻略
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5