首页 游戏 软件 资讯 排行榜 专题
首页
AI
首个Deep Research评测基准:视频理解与开放网络搜索

首个Deep Research评测基准:视频理解与开放网络搜索

热心网友
67
转载
2026-01-25

由 QuantAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准 VideoDR。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在传统的视频问答(VideoQA)任务中,答案通常都直接蕴含在视频画面里。

然而,真正智能的视频 Agent 必须具备深度研究(Deep Research)的能力。

想象这样一个场景:你在视频中看到博物馆的一件展品,想知道“在这家博物馆推荐的展品中,距离这件展品最近的那个,它的注册编号是多少?”

这不仅需要看懂视频内容(识别展品、定位位置),还需要跳出视频本身,去博物馆官网查找地图、推荐列表和编号信息。

论文可在 arXiv 平台获取。

代码已在 GitHub 开源。

VideoDR (Video Deep Research) 正是为此而生,它定义了一种全新的任务模式:

多帧视觉线索:从多个连续视频帧中准确识别关键信息并进行推理。交互式网络搜索:在真实浏览器环境中进行交互,执行多跳深度搜索。多跳推理验证:结合视频线索与网络证据,提供可验证的事实性答案。

为了保证评测的含金量,VideoDR 并未采用自动化生成,而是进行了严格的人工标注与质检。

双重依赖性测试:剔除了那些“只看视频就能答”或“只搜文字就能答”的样本,确保模型必须具备结合两者信息的能力。

六大领域覆盖:涵盖日常生活、经济、科技、文化、历史、地理。

Workflow vs. Agentic

研究人员对比了两种主流范式:

工作流模式:先将视频内容转化为结构化文本线索,再进行搜索推理。代理模式:模型端到端地直接处理视频和搜索任务,自主决定何时搜索、何时思考。

评测模型:

闭源模型:GPT-5.2, GPT-4o, Gemini-3-pro-preview开源模型:Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 4.5

核心发现与洞见

谁是目前的王者?

Gemini-3-pro-preview 和 GPT-5.2 处于第一梯队,准确率达到 69% - 76%,显著领先于其他模型。

Agentic 模式一定更强吗?

答案是:不一定。

虽然 Agentic 模式更灵活,但在处理长视频或高难度任务时,模型容易出现目标漂移现象。

工作流模式的优势:显式的中间文本线索充当了“外部记忆”,防止模型在漫长的搜索链路中忘记最初视频里的关键视觉细节。代理模式的短板:一旦初始的视觉感知出现偏差,且无法回看视频,错误的搜索路径会被不断放大。

长视频是“照妖镜”

在长视频场景下,模型保持长期一致性(Long-horizon Consistency)的能力成为瓶颈。

强大的模型如 Gemini-3 在 Agentic 模式下能利用长上下文获得提升,而部分开源模型在长视频任务中性能反而大幅下降。

总结

VideoDR 将视频理解的战场从封闭的测试集延伸到了无限的开放网络。

评测结果深刻地揭示了“端到端”并非万能灵药:在面对长链路搜索任务时,模型往往会陷入“记忆衰退”的困境。

未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破,才能真正胜任现实世界中的复杂调研任务。

来源:https://www.51cto.com/article/834771.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

腾讯混元开源DisCa视频生成加速方案 提速11.8倍获CVPR2026收录
业界动态
腾讯混元开源DisCa视频生成加速方案 提速11.8倍获CVPR2026收录

腾讯混元开源DisCa:少步视频生成模型推理加速方案,最高提速11 8倍 2026年4月,AI视频生成技术迎来重要进展。腾讯混元团队正式开源了面向少步蒸馏视频生成模型的专用加速方案——DisCa。该方案的核心创新在于引入了一套“可学习”的特征缓存机制,有效规避了传统缓存方法在少步模型上误差放大的瓶颈

热心网友
04.22
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升
科技数码
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事:交互式AI视频生成的技术突破 这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以通过该编号查阅完整的学术论文。 当前的AI视频生成

热心网友
04.17
香港科技大学团队突破实时视频生成关键技术
科技数码
香港科技大学团队突破实时视频生成关键技术

这项由香港科技大学、京东探索研究院和香港大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 17051v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。制作一段

热心网友
03.31
Sora暂停开放,国产视频大模型的机遇与未来在哪里?
科技数码
Sora暂停开放,国产视频大模型的机遇与未来在哪里?

1两年前横空出世的Sora,曾给AI业界和全球网民带来巨大的震撼。到2026年,它突然退场,没能再掀起那样大的波澜。从商业决策的角度看,这其实早就是意料之中的事。极高的视频生成成本、少得可怜的付费用

热心网友
03.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年主流十大交易所APP下载指南:币圈新手必看!
web3.0
2026年主流十大交易所APP下载指南:币圈新手必看!

在数字货币快速发展的今天,如何选择一个靠谱的交易平台,往往是新手投资者迈出的第一步。面对市场上琳琅满目的交易所APP,从安全性、易用性到功能特色,究竟该怎么选?下面,我们就来梳理一下2026年主流的数字资产交易平台,帮你从多个维度看清它们的核心特点,无论是想尝试简单的现货买卖,还是计划涉足合约交易,

热心网友
04.22
知名音乐人转型AI抗癌药创业 暂不启动外部融资
业界动态
知名音乐人转型AI抗癌药创业 暂不启动外部融资

从音乐人到AI药物研发创业者:Aloe Blacc的跨界创业之路 近日,美国知名创作歌手Aloe Blacc做客TechCrunch旗下知名播客Equity,分享了他从音乐界成功跨界至AI驱动抗癌药物研发领域的独特经历。尤为引人关注的是,他创立的AI医药公司至今未进行任何外部融资。在访谈中,他深入阐

热心网友
04.22
AI生成视频赛道再升级 Replicate推出Seedance 2.0文生视频模型
业界动态
AI生成视频赛道再升级 Replicate推出Seedance 2.0文生视频模型

AI文生视频:从“猎奇玩具”到“生产力工具”的疾速进化 还记得几年前全网疯传的“威尔·史密斯吃意大利面”吗?那段画面扭曲、动作诡异的视频,一度成为AI文生视频技术稚嫩期的经典注脚——与其说是创作,不如说是一场数字世界的“恐怖谷”体验,离实际应用相距甚远。 然而,技术的演进速度总是超乎想象。过去一年,

热心网友
04.22
百度开源8B文生图模型ERNIE-Image 消费级GPU可运行
业界动态
百度开源8B文生图模型ERNIE-Image 消费级GPU可运行

百度开源文生图模型ERNIE-Image:消费级显卡畅享顶级文字生成效果 2024年4月15日,百度文心大模型团队正式宣布开源其参数规模达80亿的文生图模型ERNIE-Image。该模型最引人注目的优势在于,仅需24GB显存的消费级GPU即可实现高效部署与运行。同时,团队还发布了推理加速版本ERNI

热心网友
04.22
欧亿交易所现货交易时间,全球市场的无缝连接
web3.0
欧亿交易所现货交易时间,全球市场的无缝连接

欧亿交易所现货交易时间:如何理解其全球化设计逻辑? 在数字资产交易的世界里,交易时间的设定绝非小事。它直接关系到投资者的操作空间能否打开,以及整个市场的流动性是否充沛。作为行业内的头部平台,欧亿交易所(OYEX)在现货交易时间上的安排,可以说是一份深思熟虑的“全球时区解决方案”。它的设计,精准地瞄准

热心网友
04.22