首页 游戏 软件 资讯 排行榜 专题
首页
AI
港中文联合美团提出通用视觉推理模型统一处理多类任务

港中文联合美团提出通用视觉推理模型统一处理多类任务

热心网友
96
转载
2026-05-16

随着大模型向通用视觉智能演进,单一任务或单一模态的方法已逐渐面临瓶颈。现实世界的视觉理解远不止于回答简单问题——它要求系统能够解析动态视频、精准定位事件发生的时间与空间、持续追踪目标对象、生成准确描述,并能进行深层次的逻辑推理。这对模型的综合能力提出了更高维度的挑战。

然而,当前的主流解决方案仍多采用“各自为政”的思路,依赖为特定任务专门定制的模型。这不仅导致系统架构臃肿复杂,更关键的是,割裂的设计阻碍了不同任务间的知识共享与协同优化,限制了模型在需要综合推理的真实复杂场景中的表现。

是否存在一条更根本的技术路径?香港中文大学多媒体实验室(MMLab)与美团的联合研究团队提出了创新性解决方案:OneThinker,一个全新的多模态统一推理模型。该研究并未选择在旧有范式上做局部改进,而是采取了一条更为彻底的路线——将图像与视频中的问答、描述、定位、跟踪、分割等多样化任务,全部抽象为“先推理、后输出”的通用范式。随后,通过多任务强化学习对模型进行一体化“锻造”。

其核心目标非常明确:验证一个关键命题,即一个单一模型能否通过统一的推理机制,同时掌握多种视觉理解与推理能力,并且在各项任务上均不妥协。为了回答这一问题,团队构建了大规模多任务训练数据集,引入了改进的强化学习算法,并在图像与视频两大模态上展开了系统性的实验评估。

从任务割裂到统一推理:OneThinker的性能验证

为了全面检验OneThinker的综合能力,研究团队在图像和视频两大领域,对其进行了多任务、全方位的严格测试。评估涵盖了视觉问答、图像描述、时空定位、目标跟踪和实例分割等核心视觉任务。

实验结果令人鼓舞。从整体数据来看,OneThinker在绝大多数任务上的性能,均超越了作为对比的基线模型及多种开源方法,展现出稳定且全面的优势。这初步证明,通过统一任务建模与多任务强化学习的协同作用,模型确实能在保持各项独立任务性能的同时,显著提升其综合推理与跨任务适应能力。

在图像问答这类高难度任务中,模型需要融合视觉理解、数学计算、逻辑推断和跨模态对齐等多种能力。实验表明,OneThinker在多项高难度图像问答基准测试中优势显著,尤其在涉及多步骤数学与科学推理的问题上,表现更为出色。这说明,统一框架并未削弱模型处理复杂问题的能力,反而通过多任务联合训练,赋予了其更强的抽象思维和跨领域泛化能力。

视频问答的挑战则更为复杂,模型不仅需要理解单帧画面,还必须厘清时间顺序、事件演变和长程依赖关系。实验结果显示,OneThinker的整体性能优于许多专门为视频推理设计的模型,在长视频理解与视频数学推理等任务上表现尤为突出。这意味着,在统一训练框架下,模型成功习得了稳健的时间建模能力,能够对复杂的视频场景进行连贯的事件级解析。

在图像描述与视频描述任务中,模型需要生成准确、完整且语言流畅的描述文本。OneThinker在这两项任务上也取得了领先的成绩,其生成的文本在事实准确性、信息完整性和语言通顺度上均有提升。这或许得益于增强的推理能力帮助模型更好地组织和整合了视觉信息,从而输出了结构更清晰、逻辑更合理的描述内容。

对于定位任务,无论是判断事件在视频中何时发生(时间定位),还是预测目标在图像中位于何处(空间定位),OneThinker都带来了显著的性能提升。模型能够更精准地把握事件的时间边界和物体的空间分布。

更进一步,在需要同时回答“何时”与“何地”的时空联合定位任务中,模型同样展现了强大的综合建模能力,证明其统一框架能有效处理时空信息交织的复杂问题。

在目标跟踪任务中,OneThinker需要在视频序列中持续锁定特定目标。实验显示,其在跟踪精度和长序列稳定性上都优于对比方法,表现更为稳健可靠。

甚至在图像与视频分割这类需要细粒度感知的任务中,OneThinker也能结合自身的推理过程生成结构化提示,从而引导分割模型获得更精确的结果。这表明,推理机制并非感知任务的替代,而是一种有效的补充和增强手段。

一系列消融实验揭示了成功背后的关键因素。如果仅进行监督微调而不引入强化学习,模型在多项任务上的性能会出现明显下滑;若使用传统强化学习方法替代本研究提出的EMA-GRPO算法,整体性能也会退化。这有力地验证了强化学习及其改进策略在统一多任务训练中的不可或缺性。

最后,一个有趣的发现是,在未经专门训练的全新任务上,OneThinker依然表现出了不错的零样本泛化能力。这暗示着,统一的多任务训练或许有助于模型剥离出更通用、更可迁移的视觉推理知识结构。

让推理成为训练的核心:OneThinker的技术架构

如此强大的综合能力,离不开背后精心构建的训练体系。研究团队首先构建了一个大规模、覆盖多任务的数据集,涵盖图像和视频模态,囊括了问答、描述、各类定位、跟踪及分割等任务。数据来源广泛,难度层级多样,为模型学习“多项全能”提供了充足的养分。

在此基础上,团队还构建了一个带有“推理过程”标注的子数据集,用于模型的监督微调阶段。这些推理链条由高性能模型自动生成并经过严格校验,保证了逻辑正确性与表达一致性,为后续的强化学习阶段打下了高质量的初始化基础。

训练的核心思想是“统一”。所有任务都被表述为“先推理、后作答”的通用格式:模型先内部生成一段推理过程,再输出最终答案或结构化结果。这种设计让不同类型的任务能在同一框架下并行训练,也方便了奖励函数的自动计算。

对于分割、定位这类感知任务,模型需要输出符合预定格式的结构化结果,以确保评估的稳定性和可重复性,避免因输出形式不统一带来的评价偏差。

在监督微调之后,强化学习登场,进一步锤炼模型的推理能力。训练中,模型会根据任务类型获得准确性奖励和格式奖励,从而被引导着生成既正确又规范的结果。

多任务训练的一个经典难题是不同任务的奖励尺度差异巨大,容易导致模型偏科。为此,研究提出了一种基于指数滑动平均的奖励归一化方法,平衡了各类任务在训练中的优化信号,有效防止了模型“躺平”在少数高奖励任务上。

整个训练在大规模GPU集群上完成,分为监督微调和强化学习两阶段。通过合理设置学习率、批大小等超参数,在保障训练效率的同时,实现了多任务的稳定联合优化。

让推理跨越任务边界:意义与展望

纵观实验结果,统一的多模态推理模型在性能上展现出的可行性与有效性是清晰的。它揭示了一个重要趋势:将多样化的视觉任务整合进同一个模型进行统一建模,非但不会“互相拖累”,反而可能产生“1+1>2”的协同效应,从整体上提升模型的综合推理能力。

同时,实验也打破了一个固有认知:强化学习并非自然语言处理的专属。事实证明,通过恰当的建模方式,它同样能在视觉感知、时序理解等多模态场景中发挥强大作用。

在这一背景下,OneThinker的设计思路显现出显著的普适价值。通过统一的任务接口、训练流程和优化策略,不同任务与模态得以共享底层的推理能力和结构性知识,大幅减少了重复开发的需求。这种范式为构建通用视觉推理模型提供了一条清晰且可复用的技术路径。

从实际应用的角度看,统一的模型也更贴近现实世界的需求。无论是自动驾驶、智能监控还是机器人交互,真实系统往往需要在同一瞬间完成环境理解、逻辑推理、决策制定、目标定位等多重功能。相比堆砌多个独立模型的方案,一个统一模型在系统复杂度控制、任务协同与整体效率上,无疑具备显著的潜在优势。

总而言之,这项研究提示我们,多模态通用模型的未来,不应仅仅执着于模型规模的无限扩张。或许,更值得关注的方向在于任务建模方式的统一、推理机制的精巧设计,以及训练策略的协同优化。这些层面的深入探索,将为下一代真正通用的多模态人工智能系统奠定坚实的基础。

来源:https://www.leiphone.com/category/ai/jkrM1ClFRmAg4YQT.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

大树云Ploutos Lab交互式AI实训革新人才培养模式
科技数码
大树云Ploutos Lab交互式AI实训革新人才培养模式

2026年,AI大模型的规模化应用与商业落地已成为产业发展的核心议题。然而,在广泛的概念验证与试点项目背后,一个关键挑战日益凸显:众多企业正陷入“试点陷阱”——尽管前期验证成果显著,却难以将AI能力转化为可规模化复制、持续产生商业价值的核心生产力。深入剖析其根源,核心矛盾在于人才供给的结构性失衡。当

热心网友
05.15
福特汽车股价两日大涨21%,AI热潮席卷传统汽车行业
科技数码
福特汽车股价两日大涨21%,AI热潮席卷传统汽车行业

福特汽车因布局储能业务,股价两日飙升约21%,创近六年最佳表现。这显示传统制造业正通过涉足人工智能与能源转型获得资本市场重估,其估值逻辑随业务拓展而更新,反映出市场对产业跨界转型的积极预期。

热心网友
05.15
Demis Hassabis谈人工智能潜力远超人类预期
AI
Demis Hassabis谈人工智能潜力远超人类预期

在数据驱动决策的今天,数据可视化已从辅助工具升级为传递洞察、支撑观点的关键手段。一幅专业的数据图表能迅速解码复杂信息,而一个存在设计缺陷的图表则可能让数据故事彻底失效。本文将深入剖析六个常见却致命的图表设计细节,帮助您避开陷阱,提升图表的专业性与沟通力。 一、饼图顺序混乱,重点模糊 饼图的核心价值在

热心网友
05.15
腾讯云开源Agent Memory技术大幅降低61%的Token消耗
AI
腾讯云开源Agent Memory技术大幅降低61%的Token消耗

腾讯云开源了TencentDBAgentMemory分层记忆引擎,采用MIT协议。该引擎通过“上下文卸载”和“Mermaid任务画布”两项核心技术,在多任务连续会话中最高可降低61 38%的Token消耗,并将任务成功率相对提升51 52%。它解决了长周期任务中记忆跨会话断裂、事实与偏好混淆以及上下文膨胀三大痛点。项目已适配主流Agent框架,支持一键集成与

热心网友
05.15
SAP统一AI平台整合构建与部署全套能力
AI
SAP统一AI平台整合构建与部署全套能力

SAP推出统一AI平台,整合业务技术、数据云与AI能力,为企业提供集成底座。同时发布自动化套件,通过超50个AI助手调度近200个智能体,驱动业务流程自动化。平台基于近期收购的数据管理公司构建,并与多家云服务商合作,确保AI结果准确合规,以提升效率、节约成本。

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac预览编辑图片尺寸教程 苹果自带工具调整大小
系统平台
Mac预览编辑图片尺寸教程 苹果自带工具调整大小

Mac自带的“预览”应用可便捷调整图片尺寸。通过“调整大小”工具精确修改像素,勾选“比例缩放”避免变形。使用“裁剪”工具框选区域以改变有效显示尺寸。利用“导出”功能可生成指定尺寸的副本而不影响原图。

热心网友
05.16
NASA与Microchip合作研发抗辐射航天芯片技术
科技数码
NASA与Microchip合作研发抗辐射航天芯片技术

航天计算技术正迎来一次里程碑式的升级。美国国家航空航天局(NASA)近日联合美国微芯科技公司(Microchip),正式启动了名为“高性能航天计算”的研发项目。该项目的核心目标,是研制一款片上系统(SoC),其运算性能预计将达到当前航天专用处理器的百倍以上。 根据NASA的规划,这款高性能航天芯片将

热心网友
05.16
银河麒麟系统开启Vulkan加速提升游戏性能教程
系统平台
银河麒麟系统开启Vulkan加速提升游戏性能教程

在银河麒麟系统上,若游戏或图形应用出现卡顿、帧率低或崩溃,可能是未开启Vulkan硬件加速。针对不同显卡,可采取相应方法启用。对于AMD或Intel集成显卡,可通过终端安装并验证mesa-vulkan-drivers包;对于已安装NVIDIA专有驱动的用户,需确保系统正确加载VulkanICD文件。操作主要适用于银河麒麟桌面操作系统V10及后续版本。

热心网友
05.16
银河麒麟系统安装Julia语言教程 打造高性能数值计算环境
系统平台
银河麒麟系统安装Julia语言教程 打造高性能数值计算环境

在银河麒麟操作系统上构建高效数值计算与数据分析平台,Julia语言凭借其脚本语言的易用性与编译语言的高性能,成为科学计算领域的理想选择。若您已完成麒麟系统的基础配置,但发现Julia环境尚未就绪,这通常是由于系统未预装或缺少关键依赖库所致。本文将系统梳理在银河麒麟OS上安装Julia语言的几种主流方

热心网友
05.16
Mac多显示器排列与分屏设置详细教程
系统平台
Mac多显示器排列与分屏设置详细教程

Mac连接多显示器后,需在系统设置的“显示器”选项中调整逻辑排列以匹配物理布局。拖动屏幕缩略图对齐实际位置,关闭“镜像显示器”以启用独立排列与分屏功能。可设定主显示器并进行微调,通过快捷键或拖拽窗口实现流畅分屏操作。

热心网友
05.16