港中文联合美团提出通用视觉推理模型统一处理多类任务

首页

热心网友

转载

2026-05-16

随着大模型向通用视觉智能演进，单一任务或单一模态的方法已逐渐面临瓶颈。现实世界的视觉理解远不止于回答简单问题——它要求系统能够解析动态视频、精准定位事件发生的时间与空间、持续追踪目标对象、生成准确描述，并能进行深层次的逻辑推理。这对模型的综合能力提出了更高维度的挑战。

然而，当前的主流解决方案仍多采用“各自为政”的思路，依赖为特定任务专门定制的模型。这不仅导致系统架构臃肿复杂，更关键的是，割裂的设计阻碍了不同任务间的知识共享与协同优化，限制了模型在需要综合推理的真实复杂场景中的表现。

是否存在一条更根本的技术路径？香港中文大学多媒体实验室（MMLab）与美团的联合研究团队提出了创新性解决方案：OneThinker，一个全新的多模态统一推理模型。该研究并未选择在旧有范式上做局部改进，而是采取了一条更为彻底的路线——将图像与视频中的问答、描述、定位、跟踪、分割等多样化任务，全部抽象为“先推理、后输出”的通用范式。随后，通过多任务强化学习对模型进行一体化“锻造”。

其核心目标非常明确：验证一个关键命题，即一个单一模型能否通过统一的推理机制，同时掌握多种视觉理解与推理能力，并且在各项任务上均不妥协。为了回答这一问题，团队构建了大规模多任务训练数据集，引入了改进的强化学习算法，并在图像与视频两大模态上展开了系统性的实验评估。

从任务割裂到统一推理：OneThinker的性能验证

为了全面检验OneThinker的综合能力，研究团队在图像和视频两大领域，对其进行了多任务、全方位的严格测试。评估涵盖了视觉问答、图像描述、时空定位、目标跟踪和实例分割等核心视觉任务。

实验结果令人鼓舞。从整体数据来看，OneThinker在绝大多数任务上的性能，均超越了作为对比的基线模型及多种开源方法，展现出稳定且全面的优势。这初步证明，通过统一任务建模与多任务强化学习的协同作用，模型确实能在保持各项独立任务性能的同时，显著提升其综合推理与跨任务适应能力。

在图像问答这类高难度任务中，模型需要融合视觉理解、数学计算、逻辑推断和跨模态对齐等多种能力。实验表明，OneThinker在多项高难度图像问答基准测试中优势显著，尤其在涉及多步骤数学与科学推理的问题上，表现更为出色。这说明，统一框架并未削弱模型处理复杂问题的能力，反而通过多任务联合训练，赋予了其更强的抽象思维和跨领域泛化能力。

视频问答的挑战则更为复杂，模型不仅需要理解单帧画面，还必须厘清时间顺序、事件演变和长程依赖关系。实验结果显示，OneThinker的整体性能优于许多专门为视频推理设计的模型，在长视频理解与视频数学推理等任务上表现尤为突出。这意味着，在统一训练框架下，模型成功习得了稳健的时间建模能力，能够对复杂的视频场景进行连贯的事件级解析。

在图像描述与视频描述任务中，模型需要生成准确、完整且语言流畅的描述文本。OneThinker在这两项任务上也取得了领先的成绩，其生成的文本在事实准确性、信息完整性和语言通顺度上均有提升。这或许得益于增强的推理能力帮助模型更好地组织和整合了视觉信息，从而输出了结构更清晰、逻辑更合理的描述内容。

对于定位任务，无论是判断事件在视频中何时发生（时间定位），还是预测目标在图像中位于何处（空间定位），OneThinker都带来了显著的性能提升。模型能够更精准地把握事件的时间边界和物体的空间分布。

更进一步，在需要同时回答“何时”与“何地”的时空联合定位任务中，模型同样展现了强大的综合建模能力，证明其统一框架能有效处理时空信息交织的复杂问题。

在目标跟踪任务中，OneThinker需要在视频序列中持续锁定特定目标。实验显示，其在跟踪精度和长序列稳定性上都优于对比方法，表现更为稳健可靠。

甚至在图像与视频分割这类需要细粒度感知的任务中，OneThinker也能结合自身的推理过程生成结构化提示，从而引导分割模型获得更精确的结果。这表明，推理机制并非感知任务的替代，而是一种有效的补充和增强手段。

一系列消融实验揭示了成功背后的关键因素。如果仅进行监督微调而不引入强化学习，模型在多项任务上的性能会出现明显下滑；若使用传统强化学习方法替代本研究提出的EMA-GRPO算法，整体性能也会退化。这有力地验证了强化学习及其改进策略在统一多任务训练中的不可或缺性。

最后，一个有趣的发现是，在未经专门训练的全新任务上，OneThinker依然表现出了不错的零样本泛化能力。这暗示着，统一的多任务训练或许有助于模型剥离出更通用、更可迁移的视觉推理知识结构。

让推理成为训练的核心：OneThinker的技术架构

如此强大的综合能力，离不开背后精心构建的训练体系。研究团队首先构建了一个大规模、覆盖多任务的数据集，涵盖图像和视频模态，囊括了问答、描述、各类定位、跟踪及分割等任务。数据来源广泛，难度层级多样，为模型学习“多项全能”提供了充足的养分。

在此基础上，团队还构建了一个带有“推理过程”标注的子数据集，用于模型的监督微调阶段。这些推理链条由高性能模型自动生成并经过严格校验，保证了逻辑正确性与表达一致性，为后续的强化学习阶段打下了高质量的初始化基础。

训练的核心思想是“统一”。所有任务都被表述为“先推理、后作答”的通用格式：模型先内部生成一段推理过程，再输出最终答案或结构化结果。这种设计让不同类型的任务能在同一框架下并行训练，也方便了奖励函数的自动计算。

对于分割、定位这类感知任务，模型需要输出符合预定格式的结构化结果，以确保评估的稳定性和可重复性，避免因输出形式不统一带来的评价偏差。

在监督微调之后，强化学习登场，进一步锤炼模型的推理能力。训练中，模型会根据任务类型获得准确性奖励和格式奖励，从而被引导着生成既正确又规范的结果。

多任务训练的一个经典难题是不同任务的奖励尺度差异巨大，容易导致模型偏科。为此，研究提出了一种基于指数滑动平均的奖励归一化方法，平衡了各类任务在训练中的优化信号，有效防止了模型“躺平”在少数高奖励任务上。

整个训练在大规模GPU集群上完成，分为监督微调和强化学习两阶段。通过合理设置学习率、批大小等超参数，在保障训练效率的同时，实现了多任务的稳定联合优化。

让推理跨越任务边界：意义与展望

纵观实验结果，统一的多模态推理模型在性能上展现出的可行性与有效性是清晰的。它揭示了一个重要趋势：将多样化的视觉任务整合进同一个模型进行统一建模，非但不会“互相拖累”，反而可能产生“1+1>2”的协同效应，从整体上提升模型的综合推理能力。

同时，实验也打破了一个固有认知：强化学习并非自然语言处理的专属。事实证明，通过恰当的建模方式，它同样能在视觉感知、时序理解等多模态场景中发挥强大作用。

在这一背景下，OneThinker的设计思路显现出显著的普适价值。通过统一的任务接口、训练流程和优化策略，不同任务与模态得以共享底层的推理能力和结构性知识，大幅减少了重复开发的需求。这种范式为构建通用视觉推理模型提供了一条清晰且可复用的技术路径。

从实际应用的角度看，统一的模型也更贴近现实世界的需求。无论是自动驾驶、智能监控还是机器人交互，真实系统往往需要在同一瞬间完成环境理解、逻辑推理、决策制定、目标定位等多重功能。相比堆砌多个独立模型的方案，一个统一模型在系统复杂度控制、任务协同与整体效率上，无疑具备显著的潜在优势。

总而言之，这项研究提示我们，多模态通用模型的未来，不应仅仅执着于模型规模的无限扩张。或许，更值得关注的方向在于任务建模方式的统一、推理机制的精巧设计，以及训练策略的协同优化。这些层面的深入探索，将为下一代真正通用的多模态人工智能系统奠定坚实的基础。

来源:https://www.leiphone.com/category/ai/jkrM1ClFRmAg4YQT.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：戴若犁谈机器人数据挑战：CEO亲述行业解决方案下一篇：张进对话GAIR 2025：AI超越视觉感知的认知新突破