首个Deep Research评测基准：视频理解与开放网络搜索

首页

热心网友

转载

2026-01-25

由 QuantAlpha、兰州大学、香港科技大学（广州）、北京大学等机构的研究者联合推出了首个视频深度研究（Video Deep Research）评测基准 VideoDR。

在传统的视频问答（VideoQA）任务中，答案通常都直接蕴含在视频画面里。

然而，真正智能的视频 Agent 必须具备深度研究（Deep Research）的能力。

想象这样一个场景：你在视频中看到博物馆的一件展品，想知道“在这家博物馆推荐的展品中，距离这件展品最近的那个，它的注册编号是多少？”

这不仅需要看懂视频内容（识别展品、定位位置），还需要跳出视频本身，去博物馆官网查找地图、推荐列表和编号信息。

论文可在 arXiv 平台获取。

代码已在 GitHub 开源。

VideoDR (Video Deep Research) 正是为此而生，它定义了一种全新的任务模式：

多帧视觉线索：从多个连续视频帧中准确识别关键信息并进行推理。交互式网络搜索：在真实浏览器环境中进行交互，执行多跳深度搜索。多跳推理验证：结合视频线索与网络证据，提供可验证的事实性答案。

为了保证评测的含金量，VideoDR 并未采用自动化生成，而是进行了严格的人工标注与质检。

双重依赖性测试：剔除了那些“只看视频就能答”或“只搜文字就能答”的样本，确保模型必须具备结合两者信息的能力。

六大领域覆盖：涵盖日常生活、经济、科技、文化、历史、地理。

Workflow vs. Agentic

研究人员对比了两种主流范式：

工作流模式：先将视频内容转化为结构化文本线索，再进行搜索推理。代理模式：模型端到端地直接处理视频和搜索任务，自主决定何时搜索、何时思考。

评测模型：

闭源模型：GPT-5.2, GPT-4o, Gemini-3-pro-preview开源模型：Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 4.5

核心发现与洞见

谁是目前的王者？

Gemini-3-pro-preview 和 GPT-5.2 处于第一梯队，准确率达到 69% - 76%，显著领先于其他模型。

Agentic 模式一定更强吗？

答案是：不一定。

虽然 Agentic 模式更灵活，但在处理长视频或高难度任务时，模型容易出现目标漂移现象。

工作流模式的优势：显式的中间文本线索充当了“外部记忆”，防止模型在漫长的搜索链路中忘记最初视频里的关键视觉细节。代理模式的短板：一旦初始的视觉感知出现偏差，且无法回看视频，错误的搜索路径会被不断放大。

长视频是“照妖镜”

在长视频场景下，模型保持长期一致性（Long-horizon Consistency）的能力成为瓶颈。

强大的模型如 Gemini-3 在 Agentic 模式下能利用长上下文获得提升，而部分开源模型在长视频任务中性能反而大幅下降。

总结

VideoDR 将视频理解的战场从封闭的测试集延伸到了无限的开放网络。

评测结果深刻地揭示了“端到端”并非万能灵药：在面对长链路搜索任务时，模型往往会陷入“记忆衰退”的困境。

未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破，才能真正胜任现实世界中的复杂调研任务。

来源:https://www.51cto.com/article/834771.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：腾势N9中保研碰撞测试获高分，解密中国SUV安全性能突破下一篇：如何用ChatGPT进行头脑风暴？AI生成50个可执行创意筛选指南

相关攻略

业界动态

腾讯混元开源DisCa视频生成加速方案提速11.8倍获CVPR2026收录

腾讯混元开源DisCa：少步视频生成模型推理加速方案，最高提速11 8倍 2026年4月，AI视频生成技术迎来重要进展。腾讯混元团队正式开源了面向少步蒸馏视频生成模型的专用加速方案——DisCa。该方案的核心创新在于引入了一套“可学习”的特征缓存机制，有效规避了传统缓存方法在少步模型上误差放大的瓶颈

热心网友

04.22

科技数码

港中大突破：单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事：交互式AI视频生成的技术突破这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究，已于2026年3月发表在计算机视觉顶级会议上，论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者，可以通过该编号查阅完整的学术论文。当前的AI视频生成

热心网友

04.17

科技数码

香港科技大学团队突破实时视频生成关键技术

这项由香港科技大学、京东探索研究院和香港大学联合开展的研究发表于2026年3月，论文编号为arXiv:2603 17051v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。制作一段

热心网友

03.31

科技数码

Sora暂停开放，国产视频大模型的机遇与未来在哪里？

1两年前横空出世的Sora，曾给AI业界和全球网民带来巨大的震撼。到2026年，它突然退场，没能再掀起那样大的波澜。从商业决策的角度看，这其实早就是意料之中的事。极高的视频生成成本、少得可怜的付费用

热心网友

03.28

科技数码

养小龙虾与AI视频火爆后，这些人工智能趋势值得关注

2026 03 26

热心网友

03.27

热门推荐

科技数码

华硕枪神10X发布搭载9950X3D与全息光显风扇

华硕在ROGDAY2026上发布了枪神10X整机，首次搭载三颗可联动显示的全息光显风扇，外观极具未来感。其核心配置顶级，采用AMD锐龙99950X3D2处理器、ROGRTX5080显卡、64GB内存及4TBSSD，并配备高效三区独立散热系统，定价69999元。

热心网友

05.16

科技数码

鹿客V3 Max智能门锁发布支持4米远距离无线充电

智能门锁领域迎来重磅新品。知名品牌鹿客近期于京东平台正式发售其旗舰型号V3 Max智能门锁，该产品凭借创新的隔空无线充电技术与先进的AI视觉识别系统引发市场关注。官方定价为3572元，在部分参与促销活动的地区，消费者可享受补贴，最终入手价有望低至2799元，性价比优势显著。鹿客V3 Max在视觉安

热心网友

05.16

科技数码

华硕ROG魔霸10系列游戏本发布搭载9955HX3D与RTX 5070 Ti

在备受瞩目的ROG DAY 2026广州站活动中，华硕重磅发布了其新一代高性能游戏笔记本电脑——ROG魔霸10系列。该系列包含16英寸的魔霸10与屏幕更大的18英寸魔霸10 Plus两款机型，旨在为硬核玩家带来顶级的游戏体验。 ROG魔霸10系列的硬件配置堪称顶级。处理器方面，用户最高可选择搭载AM

热心网友

05.16