MLLM在线时空理解力短板显现，OST-Bench揭示移步换景挑战

时间：2025-10-14 19:29

多模态大语言模型（MLLMs）已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的的 OST-Bench, 则是从智能体

多模态大语言模型（MLLMs）已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究者们提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发，为大模型的能力提出了新的挑战。

对比离线 / 静态的空间智能基准，OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。代码和数据均已开源。

论文链接：https://arxiv.org/abs/2507.07984 项目主页：https://rbler1234.github.io/OSTBench.github.io/ Hugging Face 数据集：https://huggingface.co/datasets/rbler/OST-Bench GitHub 代码库：https://github.com/InternRobotics/OST-Bench

离线鸟瞰全景 VS 在线移步换景

在现实世界中，我们的视野范围是有限的，我们的眼睛在某一时刻只能聚焦于一个局部的场景。随着不断的探索，移步换景，我们对于全局场景逐步地形成一个更为清晰的认识；与此同时，基于当前以及历史的观测，我们也能感知自身的位置变化以及与之前见过的物体的位置关系 (「我离那把椅子越来越远」「棕色的枕头现在在我的右后方」)。

和现实中的人类一样，在真实世界部署的智能体通常无法一次性获取全局环境，而是依赖连续输入的局部观测，需要在不断「移步换景」中完成在线感知、记忆维护与时空推理。这对导航、移动操控等具身任务尤为关键：比如在导航中，模型需要在当前时刻判断「刚才见到的目标现在在我左后方」，并据此决定行动。

随着多模态大模型在各类基准上不断刷新纪录，人们开始关注它们在真实世界设定下的表现。在时间维度，希望模型具备在线理解能力；在空间维度，希望模型能够基于 2d 观测构建 3d 空间布局认知。

然而，以往的空间智能评测多为离线、固定输入长度，而涌现的一些在线视频评测基准往往只考察局部或语义层面的空间感知。OST-Bench 则更贴近真实世界场景，相比以往基准具有两大核心特点：

在线设定：模型必须在不断增长的观测中进行实时感知、记忆与推理；

跨时空理解：需要同时结合当前画面与历史信息，完成面向时间跨度的复杂空间推理。

正如下图所示，与传统离线空间基准相比，在线设定对模型提出了更高、更接近真实世界的要求。

基准介绍：「移步换景」为大模型带来了哪些新难题？

传统的静态场景理解主要关注物体属性及其静态关系。而探索的智能体中不断改变自身位置和视角，带来持续更新的信息类型与更丰富的问题形态。研究团队据此将动态场景理解划分为三大信息类别：智能体空间状态、智能体可见信息、智能体 - 物体空间关系。基于这三类信息，研究团队进一步设计了15 个子任务，覆盖判断（JUD）、估算（EST）、计数（CNT）、时间定位（TEMP）四类题型。基于规则生成 + 人工筛选，生成了基准的 10k 条测试集数据 (1.4k 个场景) 以及用于微调的 50k 条训练集数据 (7k 个场景)。

实验结果：大模型的在线场景时空理解答卷

主流大模型陷入困境：当前主流多模态大模型与人类存在显著性能差距，暴露出跨时空信息推理的能力短板 (上面表 1 / 表 2)。模型的准确率随着探索步数的持续下降说明现有范式难以适应长时序的在线设定。

空间增强模型能做好吗？结果可能没那么乐观。「空间建模」机制的模型（如 Spatial-MLLM、VLM-3R 和 LLaVA-3D），与其基座模型相比没有预期的显著提升，反而在部分任务上明显退步，并伴随指令遵循能力的下降。总体来看，空间增强模型虽然在特定数据分布中表现良好，但在更开放、更复杂的在线场景中仍难以稳健发挥。这也进一步体现体现了 OST-Bench 在揭示模型真实能力边界方面的价值。

深入分析：大模型的表现诊断书

1.共性问题聚焦——大模型遇到难题更喜欢走捷径？

通过错误统计我们发现模型的犯错集中在推理步骤，而在对错误案例的深入分析中，研究团队发现一个十分典型的共性现象：在面对复杂时空推理问题时，对比主动回溯历史信息或检索关键线索，模型更倾向于「就地猜测」—— 仅依据当前片段中的有限信息做出草率推断，而非进行真正的时空整合推理。

研究团队将这种现象称为「时空推理捷径（Spatio-temporal Reasoning Shortcut）」：模型看似给出了合理答案，但推理过程并无充分依据，往往只是「表面合理」。

绿 / 红色代表模型推理正确 / 错误的地方

2.跨视角推理测评子集——对于 MLLM 的专项补考

为了更精确地定位模型的能力边界，研究团队设计了一个针对性子集。和之前的测评不同，这次 (1) 按难度分级：研究团队按是否需要多步的复杂推理 (如下图) 以及是否提前提出关键帧，将问题划分为四个难度等级。对比单步关联，多步空间关联任务要求更强的推理能力；对比只有关键帧输入，全视频输入则需在冗长观察中识别用于解答的关键帧。

(2) 补考的结果表明：复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。

3.微调实验——提前「预习」在 OST-Bench 的帮助有多大？

为了评估模型能力的上限，研究团队基于来自 7000 个场景的 5 万条问答数据对多种模型进行了微调实验。所有模型的分数均提升了超过 10%，证明「提前预习突击」确实有效。然而，团队也发现真正涉及复杂时空推理的任务仍难以突破 50% 的准确率，说明单纯微调并不能触及问题本质；此外，模型在部分题型上呈现出明显的「背答案」倾向而非真正理解。微调后的模型还容易「变得不听话」，无法稳定遵守格式对自己的答案进行解释。

现象表明：微调可以带来提升，但这种提升更像是「题海战术式的熟练」，而非「机制上的理解进步」。在这门课上，没有结构和范式的突破，仅靠刷数据是无法真正拿高分的。要攻克 OST-Bench，必须依赖更强的模型设计或训练策略。

总结

OST-Bench 提出了一个在线的时空场景理解基准，通过对于多个多模态大模型的评估，揭示了当前模型在面对「在线时空理解」任务时的深层短板，也为未来模型的发展指明了方向：突破复杂空间推理能力与长期记忆机制，将是下一代多模态模型迈向真实智能世界的关键一步。

来源：https://36kr.com/p/3508761270426500

上一篇通用暂停下一代氢燃料电池车研发，专注电动车与商用氢能技术 下一篇 谷歌调整安卓安全补丁机制，开发者社区为何反响强烈

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-06

国内首批智能体国标发布，AI应用从验证迈向规模化

国内首批智能体国家标准正式发布，这一消息在人工智能领域引发广泛关注。简单来说，这份标准为智能体技术确立了 "定义 "，明确了分类体系、技术指标与测试方法，相当于为整个行业制定了统一规范。这意味着什么？这意味着智能体技术将告别 "野蛮生长 "，迎来标准化发展，加速其在工业制造、智慧服务、智能家居等场景的落地应

科技数码 · 2026-07-06

微星40周年限量游戏本开售 5090+96GB 55999元起

值得关注的是，微星在成立40周年之际，特别推出了限量典藏版机型——泰坦18 Ultra龙魂典藏版2026款游戏本，已于昨日零点正式开售，官方定价为55999元。此外，部分地区还可叠加国家补贴，实际到手价可低至54499元。作为40周年专属纪念款，其外观设计自然独具匠心。机身正面采用金属蚀刻与阳极氧

科技数码 · 2026-07-06

墨刀原型强调交互高保真真机演示，产品流程从草图到协作评审

原型工具究竟在解决什么问题？这个问题其实很值得探讨。不少人听到“原型设计”，第一反应往往是绘制几张静态页面、添加几个页面跳转链接，但实际的产品流程远比这复杂。墨刀在“墨刀原型”的官方说明中，将重心放在原型设计、交互、高保真和真机演示这几个核心能力上。换句话说，它并不满足于让团队只输出页面静态图，而是

科技数码 · 2026-07-06

保时捷Taycan最后两款旅行车宣告停产

保时捷正式为两款纯电旅行车系列画上终止符。据海外汽车媒体motor1报道，Taycan Sport Turismo与Taycan Cross Turismo已经停止生产。随着2027款全新纯电Taycan的推出，这两款衍生车型将从产品阵容中完全移除。保时捷官方确认，此次停产的根本原因非常明确——实际

科技数码 · 2026-07-06

墨刀白板助力市场洞察需求梳理，多工具看板服务产品评审共创

首先提出一个关键判断：在产品经理的工作流程中，原型工具通常是最为熟悉的环节。此次，墨刀将“墨刀白板”功能的定位明确聚焦在市场洞察、产品规划与需求梳理三大领域——即进入具体原型设计之前的上游协作空间。与原型工具不同，白板不侧重页面与交互细节。它更适合承载早期“发散—整理—讨论—共创—评审”的过程。简