上海AI实验室FrameThinker：用AI高效破解长视频侦查难题

时间：2025-10-28 09:41

上海AI实验室联合南京大学、香港中文大学、上海交通大学及北京大学的研究团队，在长视频理解领域取得重大突破。他们提出的frameThinker框架通过模拟人类侦探的推理方式，彻底改变了传统AI处理长视

上海AI实验室携手南京大学、香港中文大学、上海交通大学及北京大学的科研团队，在长视频理解领域获得突破性进展。他们提出的FrameThinker框架借鉴人类侦探的推理方式，从根本上改变了传统AI处理长视频的模式。这项研究成果已在arXiv预印本平台发布，编号为2509.24304v2，为智能视频分析开辟了全新路径。

传统AI系统处理长视频时，往往采用“撒网式采样”策略，即均匀提取视频帧进行逐帧分析。这种方法好比将整部电影的每一帧画面都打印出来检查，不仅耗费大量计算资源，还容易在海量信息中遗漏关键细节。研究团队发现，现有视觉语言模型存在两大局限：其一是不具备信息价值判断能力，对所有画面一视同仁；其二是推理过程固化，一旦开始分析就无法根据新发现调整策略。

FrameThinker的创新之处在于引入“多轮互动推理”机制。该系统首先快速浏览视频建立整体认知，随后像专业侦探般制定调查计划：通过时间定位技能锁定可疑时段，运用区间探查技能深入分析特定片段，最终整合所有发现得出结论。这种动态迭代过程使系统能够根据中间结果调整调查方向，显著提升分析效率。

在医疗领域，该技术可帮助医生从数小时手术录像中快速定位关键操作；安防监控中，能迅速从全天候录像中发现异常事件；教育场景下，则可自动提取课程录像中的重点知识。研究团队通过具体案例展示，当被问及“视频中小女孩使用何种工具寻找目标”时，系统先整体浏览发现关键角色，再聚焦特定帧区间观察，最终确认面具为重要道具，整个过程展现出类人推理能力。

训练阶段采用两阶段递进式方法。首阶段通过2392个精心设计的案例，教授系统基础推理规范，包括直接回答、单次搜查、时间定位等五种模式。第二阶段强化学习阶段使用28000个复杂案例，引入“条件奖励”机制：只有当系统最终答案正确且推理过程合理时，才会对有效搜查行为给予奖励。这种设计避免了传统训练中AI为获取奖励而执行无意义操作的问题。

为确保推理逻辑严密性，研究团队开发了认知一致性验证模块。该模块通过三项检查保障系统可靠性：冗余检查防止重复无效操作，逻辑流程检查确保推理连贯性，忠实度检查核对思考与行动的一致性。实验数据显示，在Video-Holmes基准测试中，FrameThinker准确率达56.1%，较之前最佳成绩提升显著，且仅需观看10.2帧即可得出结论，效率提升超3倍。

技术实现层面，系统基于Qwen2.5-VL-7B模型构建，配备70亿参数。训练数据由Gemini-2.5-Pro模型生成，每个示例均经过严格质量把控。针对不同长度视频，系统自适应调整搜查策略：300秒以内视频每次获取8帧，更长视频则获取12帧。强化学习阶段采用的“组相对策略优化”算法，通过比较多条推理路径学习最优策略。

在LongVideo-Reason测试中，FrameThinker准确率达76.1%，超越需观看512帧的竞争对手，而自身仅需20.6帧。其他基准测试同样表现优异：LongVideoBench准确率52.9%（21.1帧），MLVU准确率59.1%（23.2帧），VideoMME-Long准确率47.6%（24.1帧），LVBench准确率36.6%（23.9帧）。在所有测试中，系统计算资源消耗减少25%-36%，准确率平均提升10.4%。

奖励机制设计是技术突破的关键。研究团队经过多轮试验发现，单纯格式奖励会导致AI敷衍了事，无条件行动奖励则引发重复无效操作，多轮奖励又造成推理质量下降。最终确定的“条件行动奖励”方案，对时间定位技能给予更高权重，因其提供的信息更精准可靠。这种设计哲学强调：AI学习的核心应是高效解决问题，而非执行更多动作。

该技术对日常生活的影响正在显现。智能视频搜索引擎可快速定位海量视频中的关键片段，在线教育系统能自动提取课程精华，医疗诊断工具可精准定位医学影像中的病灶。FrameThinker展现的主动探索能力，标志着AI从信息处理器向智能推理者的转变，为人机协作模式带来新的思考维度。

来源：https://www.itbear.com.cn/html/2025-10/1000569.html

上一篇沃尔玛中国换帅：前阿里高管刘鹏接任山姆总裁，重塑全渠道 下一篇张朝阳英语课：4个实用方法提升口语流利度

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。