北大与UCSD团队提出VideoOrion:Object tokens解锁视频理解新维度
在视频理解领域,北京大学与加州大学圣地亚哥分校的联合团队近日推出了一项突破性框架——VideoOrion,相关论文以优异成绩获国际计算机视觉顶会ICCV 2025接收。这项研究针对现有Video-LLM模型因依赖下采样或特征聚合所导致的细节丢失、语义混淆等痛点,创新性地将视频中前景物体的时空动态显式编码为"对象令牌",并与背景上下文令牌并行输入大语言模型,构建出兼具高效性与可解释性的新一代视频理解系统。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
传统方法通常将视频帧分割为空间网格或聚合特征生成令牌,但这种方式容易模糊不同物体的语义边界。VideoOrion的独到之处在于,它将视频中每个对象及其跨帧演化视为独立语义单元,通过"检测-分割-跟踪"三级流水线精准提取对象动态轨迹。具体而言,系统首先采用通用检测模型GroundingDINO在关键帧生成候选框,再通过分割模型SAM细化对象掩码,最终由跨帧追踪器XMem生成随时间变化的掩码序列。这些掩码经过特征池化与投影处理,最终形成语义解耦的对象令牌,每个令牌对应一个独立物体的完整动态信息。
在该框架的双分支编码架构中,上下文令牌分支采用CLIP或SigLIP模型对采样帧进行编码,生成承载场景全局信息的上下文令牌;对象令牌分支则通过前述流水线提取对象级动态特征。两类令牌被并行输入大语言模型进行融合推理,使模型既能把握整体场景语境,又能聚焦关键对象的细节变化。例如在描述"红色三轮滑板车"时,模型不仅能准确识别其颜色与类型,还能解析"拖地组件"等精细部件;在分析运动场景时,可精准分解"黑色泳装跳板后空翻"中的动作要素。
实验数据显示,VideoOrion在MVBench、EgoSchema、Perception-Test等五大基准测试中全面超越同规模模型。以7B参数版本为例,其在MVBench上的准确率达63.5%,较VideoLLaMA2提升10.1个百分点;在EgoSchema上的得分为65.1分,提升幅度达14.6%。特别是在视频指代任务中,该框架展现出独特优势:通过在提示模板中填入目标对象对应的令牌,即可直接回答"这个物体在做什么"等指向性问题。在VideoRef45K数据集上,经少量微调后,其BLEU@4、METEOR等指标均显著优于Artemis、Merlin等现有方法。
研究团队通过消融实验验证了设计合理性:移除对象分支会导致性能全面下滑;预训练对象分支可提升模型表现,说明对象令牌需要先学习基础语义再与文本对齐;令牌数量控制在64个时模型最稳定,过多会分散注意力。流水线组件替换实验表明,RAM++自适应分段策略与XMem追踪器的组合效果最佳,较均匀分段或SAM2跟踪均有明显优势。
尽管VideoOrion在性能上取得突破,但研究也指出其局限性:专用视觉模型的引入带来约38.5%的时延开销;低质量视频可能导致掩码不准确;当前仍依赖视频分支提供上下文,对象-场景融合机制尚需优化。该框架通过结构化重写视频语义,为视频问答、机器人感知等任务提供了新范式,其双视角编码思路或将推动多模态领域向更精细化方向发展。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





