多所顶校联手实现AI多角度视频理解并行探针革命_AI热点日报

南洋理工大学、香港大学、香港科技大学（广州）、清华大学及LMMs-Lab的研究团队在2025年5月的一篇预印本论文中，提出了一个颇具创新性的技术方案。论文编号为arXiv:2605 20342v2，感兴趣的读者可以通过此编号查阅完整内容。一、AI处理长视频的核心挑战与全新思路设想一下，你是一位法

南洋理工大学、香港大学、香港科技大学（广州）、清华大学及LMMs-Lab的研究团队在2025年5月的一篇预印本论文中，提出了一个颇具创新性的技术方案。论文编号为arXiv:2605.20342v2，感兴趣的读者可以通过此编号查阅完整内容。

NTU、HKU等多所顶校联手，让AI同时

一、AI处理长视频的核心挑战与全新思路

设想一下，你是一位法庭速记员，需要在长达90分钟的庭审录像中，精确定位某人说出关键证词的那一瞬间。假如你只能反复快进、暂停、做笔记，再快进、暂停……这个过程不仅效率低下，还藏着一个致命隐患：之前看到的片段会影响你对后续场景的客观判断，错误会像滚雪球一样不断累积。

这正是当前主流AI视频理解系统所面临的典型困境。这类“大型多模态模型”——即能够同时处理视频和文字的先进AI——在处理长视频时，工作方式类似于一位“侦探”：它会快速浏览全局，找出几个可疑片段，然后依次发出指令“截取第42秒到第48秒仔细分析”，分析完毕再发出下一条指令。这种“看一段、记录、再看下一段”的循环模式，在计算机领域被称为顺序工具调用。

这种工作模式存在至少三大“硬伤”。首先，一旦某次截取的片段出现偏差，该错误会直接进入下一轮分析，且没有任何纠错机制；其次，每一轮调用都会将之前的完整对话历史堆叠进AI的“记忆”，导致后续记忆愈发拥挤，噪声干扰也随之加剧；最后，需要分析的片段数量决定了等待轮次，时间成本随着调用次数线性增长。

研究团队换了一个角度思考。既然人类刑警在侦破重大案件时，会同时派出多路便衣警察分别跟踪不同嫌疑人，为何AI不能在同一时刻，将多个视频片段分发给多个“分析小组”并行处理？这一思路催生了论文的核心系统——ParaVT，一个并行视频工具调用框架。

二、ParaVT的工作机制：一名主侦探，多名外勤

ParaVT的架构设计模仿了案件指挥中心的运作逻辑。整个系统由一位“主侦探”（主智能体）和若干“外勤侦探”（子智能体）构成，所有成员共享同一套知识背景，即共享模型权重。

举一个具体例子：当一段90分钟的足球比赛录像，连同“谁打进了决定性的一球”这一提问，被送入系统时，主侦探会先快速浏览全局概览帧，形成初步判断：“第32分钟左侧禁区附近有争抢，第67分钟中路有一次针对性传球，第78分钟出现了庆祝动作——这三段都值得深入分析。”于是，主侦探在同一轮对话中，同时发出三条截取指令，分别交给三位外勤侦探，并发执行。三位外勤侦探各自专注处理自己负责的视频片段，独立生成文字摘要，再汇报给主侦探。主侦探综合这三份报告后，做出最终判断。

这种设计带来了三重实实在在的好处。第一，是“少数服从多数”的纠错机制：即便某位外勤截错了片段，另两位的正确报告仍能覆盖错误，确保最终答案不被单一误判左右。第二，上下文保持简洁：外勤汇报的是文字摘要，而非重新加载大量视频帧，主侦探的“记忆空间”不会被不断增长的视觉数据所淹没。第三，推理延迟存在上限：三位外勤同时出发，总等待时间取决于最慢的那一位，而不是三人等待时间的总和——这意味着增加分析人手，并不会延长等待时间。

三、系统训练中遇到的意外“悖论”

再精妙的系统设计，若训练不佳亦属徒劳。研究团队选择了强化学习（RL）作为训练方式，并在一个已具备基础能力的视频AI模型——Qwen3-VL-8B-Instruct——上进行训练。强化学习可以理解为“通过反复试错与奖惩机制来磨练技能”。

然而，训练刚开始不久，团队就发现了一个棘手现象，他们称之为：工具先验悖论。

要理解这一悖论，首先需明白何为“工具先验”。该术语意指，模型在被正式训练成“视频分析侦探”之前，已在海量互联网文本上进行过预训练，其中包含了大量代码示例、API文档、工具调用格式等内容。这些预训练经历使模型在内心形成了一套“调用工具应有的样子”。这好比从小阅读武侠小说的人，脑海中已有了剑法套路，即便他尚未正式习武。

悖论关键在此。像Qwen3-VL这类较新的强力模型，在预训练中接触了大量工具调用格式，其“工具直觉”非常强烈。这种强烈的直觉确实帮助模型敢于尝试调用工具——但与此同时，这种“旧习惯”在强化学习的温度采样阶段（即允许AI在思考时引入一定随机性与创造性，而非每次都给出最保守答案）会悄然反弹，将研究团队费力教会使用的标签格式，偷偷替换回预训练时更熟悉的标签，甚至直接省略掉结尾的标签。团队将这种现象命名为格式脆弱性。

为了验证悖论的另一面，团队使用了一款“工具直觉”较弱的老款模型Qwen2.5-VL进行对照实验。结果正好相反：老款模型在格式上保持得很好，从不乱用标签，但正因它对工具调用缺乏“热情”，整个强化学习过程中，它几乎从不主动调用任何工具，仿佛那些工具根本不存在。

两个模型的对照揭示了一个两难困境：预训练中“工具直觉”强的模型，有勇气探索工具，却容易格式崩溃；“工具直觉”弱的模型，格式完美，却对工具视而不见。这就是悖论的全貌——先验越强，探索越活跃，但稳定性越差；先验越弱，稳定性越好，但探索能力为零。

与此同时，还有一个相关问题，团队称之为工具必要性缺口。强化学习的运作原理是：若某个行为（如调用工具）带来的奖励明显高于不执行该行为，模型便会学着去做。然而，许多视频问题仅靠浏览概览帧就能正确回答，调用工具与不调用工具的得分差异近乎为零。在这种情况下，模型很快学会了“偷懒”——跳过工具调用直接作答，既能获得相近分数，还免去了调用的麻烦。这形成了一条典型的“捷径”。

四、PARA-GRPO：为悖论开出的两剂良方

面对工具先验悖论，研究团队并未选择更换一个“工具直觉”较弱的基础模型——因为那样会损失工具探索能力。他们选择正面应对，设计了一套专门针对这两个问题的训练算法：PARA-GRPO（可解析性锚定与比率门控的GRPO算法）。

算法名称虽长，但背后的思路可以概括为两句话：第一，“把格式最易崩溃的地方钉牢”；第二，“为工具创造真正无法绕过的必要性”。

针对格式脆弱性，团队设计了探索锚定机制，由两部分协同运作。第一部分是“约束生成”：在每条响应的开头，系统强制模型先写出n这个起始格式，相当于让侦探每次开口前先说“根据现有线索……”，这样就堵死了模型一上来就乱发工具调用或直接给出答案的可能性，但模型在此之后如何推理、推理什么，依然完全自由。在响应结尾，奖励函数会额外奖励那些正确出现闭合标签的情况，即便中间过程有些混乱，只要最终能收尾，就不全面惩罚。第二部分是“选择性锚定”：团队专门为最容易断裂的结构边界设计了一套精细的奖惩规则——若标签被正确关闭，加分；若整个→→流程完整保持，再加分；若被打开但始终未关闭，则扣分。这套奖惩仅作用于格式标签的位置，完全不影响推理内容，因此不会压制模型的思维创造力。

针对工具必要性缺口，团队设计了帧数门控机制。核心操作是：每次向模型提供视频问题时，随机从{4, 8, 16, 32, 64}这几个数字中抽取一个，决定该问题“只能查看这么多帧的概览”。当帧数被限制到仅有4帧或8帧时，许多问题的关键证据根本不在这些帧中，模型若不去主动截取更细致的片段，几乎无法正确回答——此时调用工具的得分会明显高于不调用工具，训练信号终于拥有了真实的梯度，可以引导模型学习如何调用工具。同时，保留64帧的“宽松模式”确保了并非所有问题都强制调用工具，当问题本身在概览帧中就能清晰解答时，模型仍可自由选择不调用工具而不受惩罚。两种情形的混合，既避免了模型养成无论何时都强制调用工具的坏习惯，又确保了在相当比例的训练样本上存在着真实且可感知的“使用工具 vs. 不用工具”的奖励差距。

两种机制的先后顺序非常关键，团队特别强调这一点：必须先让锚定机制保证格式的正确性与可解析性，只有在格式正确的前提下，帧数门控产生的工具使用奖励信号才能被正确归因到工具调用行为上；否则，即便信号存在，格式混乱的输出也无法获得奖励函数的正确评分。

五、训练数据的来源：一场精心的“备料”过程

ParaVT的训练分为两个阶段。第一阶段是监督微调（SFT），可以理解为“先让模型跟着示范示例学习基本动作”；第二阶段才是强化学习（RL），“在实战中通过得失反馈磨练判断力”。

第一阶段的数据集共计97000条，来自七个不同来源，如同一份精心配比的食材清单。其中，50000条是普通视频问答，用于巩固模型的基础视频理解能力；15000条是从一个名为LongVT的先前研究中提取的工具调用记录；另有12000条是视频时间定位训练数据；6000条是带并行工具调用的时间定位数据；5000条是长视频多步推理链数据；5000条是用Gemini-2.5-Flash这一强力AI蒸馏生成的工具调用示范；2500条来自MUSEG数据集，每条平均包含约4.4次并行工具调用，是并行调用示范最密集的来源。

其中有一个值得详细介绍的数据转换过程。LongVT等来源的原始数据是“顺序格式”——一个问题对应多轮对话，每轮只进行一次截取。团队开发了一套转换规则，将可以合并的相邻截取操作合并到同一轮中。合并的前提是：这两次截取的目标时间段不重叠，且它们的结果彼此独立、不相互引用。例如，“查看第30秒到50秒”和“查看第130秒到145秒”各自独立，可以合并；而“查看第30秒到50秒之后，为确认再查看第52秒到55秒”则属于依赖关系，不能合并。此外，每次截取原本会返回视频帧，转换后统一改为返回该片段的文字摘要。这样处理，一方面对齐了第二阶段强化学习时子智能体的输出格式，另一方面也将上下文长度控制在可管理的范围内。

第二阶段的强化学习数据集共4406条，来自三类任务：1606条开放式问答（来自HACS和Ego4D-NaQ视频）、1600条多项选择题、1200条视频时间定位查询。在正式训练之前，团队还进行了一轮数据过滤，剔除掉那些无论模型如何回答都不会产生有效学习信号的样本——包括标准答案超过15个词的开放式问题（模型几乎永远答不对，奖励始终为零，缺乏学习价值），以及用当前冷启动模型跑了8次都全部答错的问题（同样没有正向信号可以强化）。

六、实验结果：数字背后的故事

训练好的ParaVT-8B模型，在六个长视频理解基准测试上与同类系统进行了全面对比。这些测试覆盖了多项选择题形式的综合视频理解（VideoMME、LongVideoBench、LVBench、MLVU、MMVU）和视频时间定位（Charades-STA，使用交并比衡量定位准确度）。

与基础模型Qwen3-VL-8B相比，ParaVT在全部六个测试上均有提升，平均提升幅度约为7.9个百分点。其中，在LongVideoBench上提升了15.7个百分点，在LVBench上提升了20.2个百分点，在MLVU上提升了11.5个百分点。时间定位任务上，ParaVT在Charades-STA上达到了50.1的交并比，相比基础模型的49.3有明显提升——这一数据显示，并行截取机制确实将时间定位从模型的“顺带能力”转化为有意识的证据聚合子流程。

ParaVT还在两个指标上超越了GPT-4o这一商业闭源模型已报告的成绩：LVBench上39.8对34.7，MMVU上68.6对66.7。

消融实验（即逐步移除某个组件，观察效果变化的对比实验）进一步验证了每个设计决策的价值。仅进行监督微调而不进行强化学习时，模型在训练中平均每个样本使用2.5次工具，但测试时工具使用率一旦超出示范数据覆盖的分布范围，就会变得不稳定；加入普通的GRPO强化学习后，工具使用率在7步之内就崩溃至接近零——这印证了工具必要性缺口的存在；加入完整的PARA-GRPO后，格式合规率从0.13稳定攀升至最高0.64，工具使用率维持在合理的每样本约0.21次，同时所有基准测试成绩均优于普通GRPO版本。

单独启用探索锚定（不启用帧数门控）时，格式合规率回升至0.35，但工具使用率仅0.19，说明仅仅保证格式是不够的；单独启用帧数门控（不启用探索锚定）时，工具使用率跃升至1.36，但格式合规率仅0.10，说明仅有工具使用动力而格式混乱同样行不通。只有两者结合，才能同时稳住两个指标。

在推理方式的对比上，团队使用同一个训练好的检查点，分别测试了“顺序调用”和“并行调用”两种方式。结果，并行调用在每个测试集上都优于顺序调用，尤其在LongVideoBench和LVBench上差距最为明显。这一对比特别有价值——它排除了“是否因为训练方式不同才更好”的疑虑，证明了并行调用本身在推理阶段就是一个质量更高的选择，无需重新训练模型。

七、经验与教训：哪些路径走不通

研究团队在论文附录中诚实地记录了多个“失败的尝试”，这些记录对整个领域同样具有参考价值。

其中一个尝试是“先单独优化格式，待格式稳定后再引入准确率奖励”。结果，单独优化格式信号跑了160步，格式合规率依然停留在0.13，毫无改善。这说明格式学习与内容学习是相互依存的，模型需要从准确率信号中寻找“为何要认真写格式”的动机，两者无法完全脱钩。

另一个尝试是“替换工具调用标签”。团队考虑过，既然格式脆弱性的根源在于模型的预训练习惯倾向于使用，那干脆将监督微调也改为使用，使旧习惯与新训练对齐。实验结果出乎意料：使用训练的模型，在强化学习过程中反而更多地输出（出现率5.4%），远超其被训练过的（出现率1.8%）。这种双向反弹现象证明，格式脆弱性的根源并非单一标签不匹配，而是预训练阶段在模型权重中留下了多种工具调用格式的竞争记忆。在强化学习的随机温度采样下，任何一种格式都可能冒出来，换哪个标签都难以避免此问题。

还有一个反直觉的发现：使用更多数据做更强的监督微调冷启动，未必会带来更好的强化学习结果。团队将冷启动数据从97000条扩充到106000条，工具比例从30%提升至更高，得到的冷启动模型在静态测试上确实更强（VideoMME从61.3提升至62.3），但以此为基础进行强化学习时，工具使用率全程为零。原因在于：更强的冷启动使模型在大多数帧数受限的情况下已能正确回答问题，帧数门控所产生的“必须调用工具”的困难场景被轻松绕过，工具奖励信号被稀释至可忽略的水平，强化学习完全失效。这一教训告诉我们：冷启动的目标应是教会格式的骨架，而非将工具调用能力本身全部教完——那是强化学习该承担的任务。

八、局限与未来：还有哪些路尚未探索

研究团队在论文中坦诚指出了现有工作的边界。首先，整个PARA-GRPO的验证仅在Qwen3-VL-8B这一个模型上完成，它是否适用于其他具有不同预训练背景的工具原生大模型，尚待验证。其次，双模型对照实验（Qwen2.5-VL vs. Qwen3-VL）在逻辑上支持“先验强度是问题根源”这一解释，但并非严格控制变量的因果实验，仍然存在其他可能的影响因素。第三，整套框架目前仅验证了视频截取（crop_video）这一种工具，对于文字检索、场景图提取、音频转录等其他类型的工具是否同样适用，目前仍是开放性问题。

在未来方向上，团队提到了两个最自然的扩展方向：一是将PARA-GRPO应用于更大的模型（32B至72B参数量），更强的基础能力或许能让强化学习的探索更加高效；二是将帧数门控背后“制造工具必要性”的思路迁移到其他场景，例如检索增强生成（当文档块已经足够大，足以直接回答时，模型会跳过检索，其逻辑与视频帧数够多时跳过截取完全一致）和代码执行（当模型凭推断即可得出答案时，它会跳过实际执行代码的步骤）。

归根结底，ParaVT这篇论文解决的核心问题不仅限于“如何让AI同时观看多段视频”，其更深层的贡献在于揭示了一个在工具原生大模型强化学习训练中普遍存在、却此前未被命名的障碍——工具先验悖论——并提供了一套可供后续研究借鉴的干预逻辑：与其试图消除预训练先验，不如设计训练机制与先验合作，既顺应探索动力，又在格式的关键节点加以固定。随着越来越多的大模型在预训练阶段就已内化各种工具调用能力，这一问题的重要性只会持续提升，而不会消失。

Q&A

Q1：ParaVT的并行视频截取是将视频的不同片段同时分发给多个AI实例进行分析吗？

A：是的。ParaVT的主智能体在同一轮对话中发出多条截取指令，每条指令分配给一个独立的子智能体并发处理。每个子智能体仅负责自己分得的视频片段，最后各自返回文字摘要，由主智能体综合判断。这样一来，即使某个子智能体截取的片段有误，其他子智能体的正确报告仍能覆盖错误，避免单一错误被传播放大。

Q2：PARA-GRPO中的帧数门控具体如何制造“工具必要性”？

A：训练时，每个问题会被随机分配一个“只能查看这么多帧概览”的限制，可能是4帧、8帧、16帧、32帧或64帧中的某一个。当限制很严格（比如只有4帧）时，关键证据很可能不包含在这些帧中，模型若不调用截取工具几乎无法正确回答，因此调用工具的奖励会明显高于不调用工具，训练信号拥有了真实梯度。保留64帧的宽松情况，确保并非所有问题都强制调用工具，让模型学会“该调用时调用，不需要时跳过”。

Q3：为什么更强的冷启动监督微调反而导致强化学习阶段工具使用率为零？

A：当冷启动已经将工具调用能力教到相当强的程度后，模型在帧数受限的训练场景下也能凭自身能力正确回答大多数问题。于是，“调用工具”与“不调用工具”的奖励差距接近零，强化学习的梯度信号几乎消失，模型便稳定在不调用工具的状态。这揭示了一个平衡点：冷启动应只教格式骨架，将工具调用的决策能力留给强化学习阶段，过度的冷启动反而会让强化学习失去用武之地。