游乐游手机版
首页/科技数码/文章详情

北大与字节推出Open-o3+:视频嵌入时空证据让AI推理有迹可循

时间:2025-11-30 12:05
在人工智能领域,视频理解一直是极具挑战性的课题。近日,一支由北京大学与字节跳动联合组成的科研团队,成功研发出全球首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。该模型突

在人工智能领域,视频理解一直是个极具挑战性的难题。近日,由北京大学与字节跳动组成的联合科研团队,成功研发出全球首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3+Video。该模型突破了传统视频推理的局限,不仅能准确回答问题,还能在推理过程中同步标注关键事件的发生时间和具体位置,实现了真正意义上的可追溯推理。

视频理解任务要求模型同时处理时间维度的动态变化与空间维度的场景交互。传统模型虽能识别画面中的物体和动作,却难以准确判断事件发生的具体时间和位置。Open-o3+Video通过创新性的技术架构,成功解决了这一难题。该模型采用非 agent 架构设计,避免了复杂的工具调用和多轮推理,在单次回复中即可完成“观察-思考-验证-回答”的完整闭环。实验数据显示,在多个视频推理测试中,其关键指标较现有模型提升最高达24.2%,性能表现超越GPT-4o和Gemini-2-Flash等闭源模型。

研发团队指出,实现视频推理的可解释性面临两大核心挑战:一是保持文本、时间戳和物体检测框在推理过程中的一致性;二是解决时空耦合监督数据的严重缺失问题。现有数据集要么仅提供时间标注,要么只有空间标注,缺乏统一的时空标注体系。为突破这一瓶颈,团队构建了首个面向显式时空推理的统一语料体系STGR,包含30万条监督微调数据和3.6万条强化学习数据,其中5900条高质量时空数据通过严格标注流程确保数据质量。

该模型采用独特的双阶段训练机制:首先通过监督微调阶段让模型掌握推理格式与输出规范,再基于GSPO的强化学习阶段优化时空对齐能力。研发团队特别设计了自适应时间临近机制和时间门控机制,前者通过动态调整时间奖励的容忍范围实现从粗定位到精定位的收敛,后者确保空间奖励计算仅在时间预测准确时启动。这种创新训练方式使模型能够稳定高效地学习时空推理能力。

在基准测试中,Open-o3+Video展现出卓越性能。在时空推理基准V-STAR上,其时间对齐和空间对齐指标分别提升14.4%和24.2%;在VideoMME、WorldSense等四个主流测试集中,模型在需要复杂推理的时空任务和传统视频识别任务中均表现突出。特别是在VideoMME-Long子任务中,模型准确率达到54.9%,较基线模型提升4.1个百分点。

消融实验验证了模型设计的有效性:双阶段训练机制使模型性能提升显著,关键奖励机制确保训练稳定性,统一时空标注数据对推理能力提升至关重要。可视化结果显示,模型在处理物体识别、动作分析和环境推理等任务时,不仅能给出准确答案,还能提供时间戳和目标框等可验证证据,使推理过程透明可信。

目前,该研究的论文、代码和模型已全部开源。这一突破性成果为视频多模态模型的发展开辟了新方向,有望推动人工智能从“能理解”向“能定位、能解释”的更高阶段迈进。科研团队表示,将持续完善时空推理数据与训练机制,为更长视频、更复杂场景下的问答任务提供可靠支撑。

来源:https://www.itbear.com.cn/html/2025-11/1010581.html
上一篇8TB固态硬盘首发 金斯顿FURY Renegade G5仅售6399元 下一篇阿里云通义AgentScope 1.0开源:智能体框架与两大应用发布
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo