CVPR 2026 多模态智能全景从感知到推理的范式演进

首页

热心网友

转载

2026-05-17

回顾过去十年计算机视觉的发展历程，其演进主线十分明确：从早期以ImageNet图像分类为代表的“识别感知”范式，逐步转向以目标检测、实例分割为核心的“结构化理解”，再到如今由扩散模型引领的“生成创造”范式。视觉研究的核心目标始终如一——让机器更精准、更智能地“理解世界”。

然而，这一发展路径在近两年逐渐触及瓶颈：当模型在静态图像上的感知精度已接近甚至超越人类水平时，单纯追求“看得更准”所带来的边际收益正在显著递减。

在此背景下，CVPR 2026中涌现的研究工作所展现的，已不仅是性能指标的持续提升，而是一种更深层次的范式转移：视觉能力本身不再是终极目标，而是被重新定位为一种基础的中介能力，服务于更高层次的智能目标，如逻辑推理、自主决策与人机交互。

这一转变体现在多个维度：一方面，越来越多的研究开始反思以语言为中心的推理路径，探索让模型在视觉特征空间或潜在空间中直接完成结构化推理的可能性；另一方面，学界也在重新审视现有的评测体系与数据构建方式，因为若评价标准本身存在偏差，所谓的“性能进步”可能只是对特定评测集的过拟合。

更重要的是，本届会议的论文并非在单一技术点上线性推进，而是呈现出一种系统性重构的态势：在推理机制上，从“固定流程推理”转向“自适应按需推理”，从显式的链式思维走向隐式的表示学习；在评测范式上，从便捷的多项选择题评估转向更贴近真实能力的开放式可验证问答；在模型形态上，从单一任务的专用模型演进为支持图像、视频、定位一体化的多模态通用系统；在数据层面，则从分散、小规模的数据集走向规模化、结构化、任务驱动的数据基础设施。

这些变化背后，一个更深刻的行业共识正在形成：视觉智能发展的关键瓶颈，已不再仅仅是模型架构或算法本身，而是“推理方式、评测标准、系统形态与数据生态”四者之间的协同优化问题。

基于上述整体趋势，我们对本届会议中具有代表性的研究工作进行了系统性梳理。从推理机制的重构、评测范式的反思、模型系统的演进以及数据基础设施的升级四个关键维度出发，选取了一系列标志性论文，力图还原本轮视觉智能范式变革的核心脉络与未来方向。

推理机制：我们可能一直用错了方法

如果说过去的多模态研究默认遵循一条路径——无论任务复杂度如何，模型都应通过思维链进行逐步推理，那么由Meta AI、KAUST和普林斯顿大学联合提出的《VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》论文，则从根本上动摇了这一前提。

在视频理解任务中，主流方法通常依赖显式推理来提升性能。但作者通过实验观察到一个反直觉的现象：对于经过强化学习优化的视频模型，直接输出答案在许多情况下已经可以达到、甚至超过带有推理步骤的结果。这表明问题可能不在于模型缺乏推理能力，而在于“强制每次都必须推理”这一设定本身可能是低效甚至冗余的。

基于此洞察，论文提出了VideoAuto-R1框架。该框架与其说是增强推理，不如说是在智能调度推理。在训练阶段，模型采用“一次思考，两次回答”机制：首先生成一个初始答案，随后进行推理并输出一个修正后的答案。模型同时对这两个输出进行监督学习，从而兼具快速响应能力和在必要时进行深度推理的能力。

在推理（预测）阶段，模型并非固定执行推理流程，而是根据初始答案的置信度进行动态决策——若问题简单，则直接输出结果；若问题复杂，才触发后续推理步骤。

这种设计将“是否进行推理”从一个预设的固定流程，转变为模型可自主学习的决策变量。实验结果表明，这种按需推理的方式不仅没有损失性能，在保持当前最优水平的同时，还将平均输出长度减少了约3.3倍。同时，研究揭示了一个更细粒度的规律：在感知类任务中，推理的增益有限；而在真正需要复杂逻辑与关系理解的任务中，推理才显得至关重要。

该论文的亮点主要体现在三方面。首先，它开创了“按需触发推理”的新范式，显著提升了多模态模型的推理效率。其次，其“双答案训练机制”在保证高性能的同时，大幅减少了不必要的计算开销。最后，它明确了推理的必要性边界，为未来多模态模型的设计提供了重要指导：推理应服务于复杂任务，而非所有任务。

总体而言，这篇论文的核心贡献在于提出了一种自适应触发推理的视频理解框架，推动视频理解从“始终推理”向“高效自适应推理”演进。

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写

如果说VideoAuto-R1回答了“推理是否必须发生”，那么由加州大学伯克利分校、Xero以及MIT-IBM Watson AI Lab联合提出的《Latent Visual Reasoning》则追问了另一个更深层的问题：即便发生推理，是否一定要以语言作为中介？

当前多模态模型虽能处理视觉输入，但其内部推理过程仍高度依赖语言表示。这在处理拼图、空间对应、几何结构等任务时会遇到表达瓶颈，因为这些结构化信息很难被线性的文本步骤充分刻画。此外，现有方法常依赖人工设计的中间监督信号（如边界框），不仅标注成本高，也限制了模型学习更灵活视觉表示的能力。

在此背景下，LIVR框架提出了一条新路径：与其显式构造推理步骤，不如让模型在潜在空间中自行形成推理结构。

具体而言，该方法在输入中引入一组潜在视觉标记，并通过一种“视觉瓶颈机制”强制模型在预测答案时只能通过这些标记获取视觉信息，而不能直接访问原始图像特征。这种限制迫使模型将关键信息压缩并编码进这些潜在表示中，从而在隐式空间内完成信息组织与推理。

训练过程分为两阶段：首先学习潜在标记如何承载视觉信息，随后进行联合优化。最终得到的并非一条可读的推理链，而是一种内嵌于表示中的隐式推理过程。这种方式不依赖显式中间监督，却在多项视觉任务和不同模型架构上带来了稳定的性能提升，表明这种“去语言化”的推理机制具备强大的泛化能力。

该论文的亮点在于：首先，提出了一种无需显式监督的视觉推理方法；其次，将推理从“文本链式”扩展至“潜在空间”，能更自然地表达复杂视觉结构；最后，该方法通用性强，为隐式视觉推理提供了新思路。

总体来看，这篇论文的核心贡献是提出了一种基于潜在标记的隐式视觉推理框架，推动多模态模型从依赖语言推理，转向在内部表示中进行更高效、更灵活的视觉推理。

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写

而麻省理工学院（MIT）的论文《ARC Is a Vision Problem!》则更进一步，直接颠覆了问题本身的定义方式。ARC（抽象推理基准）长期以来被视为语言推理任务，大量方法依赖大语言模型进行规则归纳。但这篇论文指出，这种处理方式可能从一开始就偏离了问题本质。

ARC与其说是一个语言推理问题，不如说是一个典型的视觉结构变换问题，其核心在于空间关系、对称性与几何规律，而非语言逻辑。

基于这一定义重构，研究将ARC建模为一个图像到图像的映射任务：首先将原始网格嵌入到一个“画布”中，使其能像自然图像一样被处理；随后直接使用标准视觉模型学习从输入到输出的空间变换规则。

在推理阶段，方法引入了测试时训练，使模型能在看到少量示例后快速适应，实现跨任务泛化。值得注意的是，该方法并不依赖大规模预训练数据，却在ARC上取得了接近人类水平的性能，显著缩小了与大型语言模型的差距。其成功依赖于视觉模型固有的归纳偏置，如空间局部性、平移不变性等，这些特性使模型能更自然地学习抽象规则，并在少样本场景中展现出更强的泛化能力。

总体而言，这篇论文的核心贡献是将ARC问题从“语言推理”重新定义为“视觉建模问题”，并证明基于视觉的方法能有效学习抽象规则，为通用推理模型提供了新的方向。

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写

将这几项工作结合来看，可以发现它们并非简单地提升模型能力，而是在逐步解构“推理”这一概念本身：过去的路径默认所有问题都需通过语言展开推理，而现在的趋势则是在重新分工——有些问题本质是感知问题，可直接回答；有些推理可在潜在表示中完成，无需显式展开；还有些任务需要先被重新定义，才能找到更合适的建模方式。正是在这种不断打破既有假设、建立新范式的过程中，多模态模型开始从“始终推理”的范式，转向一种更具适应性的“按需与多形态推理”。

评测体系：正在误导研究方向

如果说现有视觉语言模型的评测大多停留在“识别与描述”层面，那么由清华大学多个院系与理想汽车联合提出的《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》，则将评测推进到了更接近真实世界的一步：模型不仅要理解环境，还要在多个智能体共存的场景中理解合作、竞争与策略博弈。

现实任务往往不是单一智能体面对静态图像，而是多智能体在同一环境中相互影响，涉及合作、竞争或混合动机。然而，现有基准大多局限于单智能体或纯文本环境，难以真正衡量VLM在复杂交互场景中的策略能力。

为填补这一空白，论文提出了VS-Bench，构建了一个多模态、多智能体的统一评测环境，涵盖10个视觉驱动的交互场景，覆盖合作、竞争及混合动机等多种任务类型。

更重要的是，评测并未止步于最终答案的对错，而是将模型能力拆解为三个层次进行评估：首先是基础感知能力，即识别环境元素；其次是策略推理能力，即预测后续行动；最后是决策执行能力，即模型在整体任务中的实际表现。

这种分层评估使得结果不再只是一个分数，而能清晰揭示模型短板究竟在于“没看懂”、“看懂了但不会推理”，还是“能推理但决策不稳”。

实验测试了多个主流视觉语言模型，结果显示它们在感知层面已表现较强，但在策略推理和决策层面仍存在明显差距。换言之，模型往往“看得懂环境”，却尚未真正具备在复杂交互中做出最优决策的能力。

这项工作的价值在于：它首次建立了面向多智能体多模态场景的统一评测框架，弥补了现有基准在复杂交互任务上的缺失；同时通过感知、推理、决策三层拆解，使VLM的能力分析更为细致和可解释。

与其说它只是增加了一个新基准，不如说它将视觉语言模型的评估范围，从单一图像理解扩展到了策略推理与交互决策，为后续研究明确指出了关键短板：当前模型已越来越会“看”，但还远未学会在多智能体环境中“谋”。

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写

相比之下，由中国科学院自动化研究所、智源FlagEval团队、北京大学、浙江大学等多所机构联合提出的《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》，则将目光转向了另一个更基础却影响深远的问题：当前用于训练和评估多模态模型的题目形式本身是否可靠。

当前大量视觉问答基准采用多项选择题形式，虽便于自动评测，但论文指出，选项本身常会泄露额外信息，使得模型即使未真正理解图像和问题，也能通过排除法、选项偏差或猜测模式获得高分。换言之，模型分数可能被系统性高估，其真实能力并未同步提升。

为解决此问题，论文提出了ReVeL框架，旨在打破对选择题形式的依赖，建立一种“可验证开放问答”的新范式。

其核心并非简单删除选项，而是针对不同问题类型设计相应的重写策略与验证机制，将原本依赖选项的信息重组为开放式问答，同时保留自动验证答案的能力。这使得模型在回答时无法再借助选项进行投机性推理，而必须真正基于视觉内容与问题语义生成答案。

在训练阶段，作者进一步利用转换后的数据对视觉语言模型进行强化微调，使训练信号更贴近真实开放场景，并降低了多项选择题偏差带来的干扰。

该论文最关键贡献在于，它将一个长期被默认接受的评测形式重新问题化。作者不仅指出MCQA存在“虚高”风险，还通过实验量化了这种偏差（分数可能被高估约20个百分点）。在此基础上，ReVeL提供了一条从“选择题评测”走向“可验证开放问答”的可行路径。它在保留自动评测可操作性的同时，迫使模型摆脱对选项线索的依赖，从而提升了开放问答能力、数据效率与训练稳健性。

与其说这项工作只是更换了题型，不如说它打破了多模态评测中“便捷性等于有效性”的惯性思维，并建立起一种更接近真实应用的训练与评估方式。

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写

将这两篇论文结合来看，可以发现它们共同推动视觉语言模型评测从“表面正确”走向“真实能力”。VS-Bench追问的是模型在多智能体环境中的策略推理与决策能力；ReVeL追问的是模型在答对时是否真正理解了问题，而非被选项提示所引导。前者将评估场景从静态理解扩展到动态交互，后者将评估形式从封闭选择推进到开放验证。它们共同指向同一趋势：未来的多模态模型不能仅在静态、封闭、易评分的任务上取得高分，而必须在更开放、更动态、更贴近真实世界的任务中证明自身的理解、推理与决策能力。

系统演进：不是小修小补，而是整体重建

与众多已具备图像理解能力的开源视觉语言模型相比，由Allen Institute for AI和华盛顿大学共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》将关注点延伸至两个更关键的方向：一是视频理解能力，二是语言与视觉之间的细粒度对齐。

当前主流开源VLM虽然在单张图像理解上已取得不错效果，但在处理时序信息更复杂的视频输入时仍能力有限，同时在将语言描述精确对应到具体视觉区域方面也存在明显不足。

更深层的问题在于“开源”的不彻底性：许多模型仅开放部分权重，其训练数据、数据来源或训练流程并不透明，甚至依赖闭源模型进行蒸馏，这导致结果难以复现，也限制了后续研究的可持续发展。

Molmo2正是同时回应这两个问题。它不仅将输入形式从单图、多图扩展至视频，还在模型中引入了定位能力，使模型能够将语言描述精确映射到图像或视频中的具体区域。如此一来，模型不仅能回答“看到了什么”，还能进一步回答“具体在哪里”，在理解与定位之间建立了更紧密的联系。

除方法创新外，该论文的亮点同样显著。首先，它提供了一套完全开源的视觉语言模型体系，开放模型、数据与训练流程，这在当前多模态领域较为罕见。其次，它将能力从图像扩展至视频，并加入了精细的定位能力。最后，该工作在开放性与性能之间取得了平衡，为后续研究提供了一个可直接使用与扩展的基础模型框架。

总体来看，这篇论文的核心贡献是构建了一套完全开放、支持视频理解与定位能力的视觉语言模型体系，推动多模态模型从“仅理解图像”向“能理解视频并进行细粒度对齐”的统一框架演进。

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写

数据基建：不是缺模型，而是缺数据

而由苹果公司提出的《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》，则将焦点置于文本驱动图像编辑领域一个基础但长期存在的瓶颈：模型要依据自然语言指令编辑图像，离不开大规模、高质量、开放且贴近真实场景的数据。然而，现有数据集往往规模有限，或主要依赖合成图像，难以覆盖真实图像中的复杂内容、多样物体关系与开放场景变化。

Pico-Banana-400K正是围绕这一数据瓶颈构建的。该数据集基于来自OpenImages的真实图像，利用多模态模型自动生成编辑指令及对应编辑结果，从而形成大规模的“图像-指令-编辑结果”三元组数据。

它并非简单堆砌数据，而是在构建过程中引入了细粒度编辑分类体系与多模态模型评分机制，以同时保证两件事：编辑结果需符合指令，且修改后需尽可能保持原始图像内容的一致性。

更进一步，该数据集的设计并未停留在单步编辑。除基础的单轮编辑外，它还包含多轮编辑数据、偏好数据以及长短指令对，因而可支持更复杂的推理、规划与对齐研究。

这意味着，Pico-Banana-400K不仅为图像编辑模型补充了训练样本，更试图将文本驱动图像编辑从一次性操作，推进至更接近真实使用场景的连续编辑、偏好对齐与复杂指令理解。

这项工作的价值在于，它以40万级别的高质量真实图像编辑数据，填补了指令驱动图像编辑领域长期缺乏开放大规模数据的空白，同时通过系统化的数据构建流程，在规模、质量与多样性之间取得了平衡。它打破了以往图像编辑数据规模小、合成度高、任务形式单一的限制，建立了一个更标准化的数据基础设施，为后续文本驱动图像编辑模型的训练、评测与对齐提供了更坚实的起点。

CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写