AI视频剪辑新突破：输入文字或片段即可精准截取目标内容

时间：2025-09-17 21:23

还在实时视频里找特定事件找半天？最新技术直接开挂了。试想一下，安防监控中，几个人影短暂掠过，利用新技术可以秒级调出这段“可疑聚众”的精准片段。 △图片为AI生成在VR训练场，你戴上VR

还在对着实时视频画面苦苦寻找特定事件？最新技术彻底改变了游戏规则。

想象这样的场景：安防监控中，几个人影一闪而过，利用这项技术能够秒级调取出这段可疑聚集的精确片段。

AI生成场景图

或者在VR训练场，当你戴上VR眼镜练习投篮时，只需提前在手机App中输入"找出与这个视频示范(库里完美三分片段)相似的动作"。训练过程中，系统会实时分析第一视角视频流，当你做出与库里相似的发力动作和投篮轨迹时，VR界面会立即高亮标记这个精彩片段。

VR训练场景

技术突破

这项名为"混合模态在线视频定位(OVG-HQ)"的创新技术，由深圳北理莫斯科大学与阿德莱德大学的研究团队联合研发。它能在视频直播或录制的同时，根据用户提供的文字、参考图片或视频片段等多样化线索，实时识别并精确定位感兴趣的事件片段。

技术原理图

现有技术瓶颈

传统方法存在两大痛点：

离线处理：需要等到视频完整录制后才能分析，无法满足安防、直播和VR训练的实时性需求
单一模态：仅依靠文字描述难以精确捕捉视觉世界的微妙差异

技术原理

研发团队通过构建参数化记忆模块解决历史知识遗忘问题，采用混合模态蒸馏方法确保模型对不同质量输入信息的均衡处理。

技术架构图

创新点展示

参数化记忆模块

性能表现

实验结果显示，采用混合模态蒸馏后，模型在弱模态输入处理上获得显著提升：图像检索精确度提升8.98%，图像生成精确度提升9.35%。

性能对比图

应用前景

这项技术不仅将革新安防告警、体育直播回放和VR训练反馈领域，更为智能家居、工业质检、自动驾驶等应用场景开拓了全新可能。

研究团队

曾润浩（深圳北理莫斯科大学）
毛嘉其（深圳大学）
赖铭浩（深圳大学）
Minh Hieu Phan（阿德莱德大学）
董延杰（深圳北理莫斯科大学）
王伟（深圳北理莫斯科大学）
陈奇（阿德莱德大学）
胡希平（深圳北理莫斯科大学）

论文已发布于arXiv平台：https://arxiv.org/abs/2508.11903

来源：https://36kr.com/p/3470728322619008

上一篇美团押注上班族早餐市场，开启本地生活新赛道 下一篇全球具身智能估值390亿美元创新高，英伟达持续加码投资

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售，支持4K165Hz与FHD520Hz双模切换，定价1888元。采用FastIPS面板，97%DCI-P3色域，配备升降支架及双HDMI2 1和双DP1 4接口。

科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年，DRAM与NAND闪存的供应持续紧张及价格不断攀升，正逐步传导至终端消费市场。可以预见，下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价，最终连苹果也不得不跟进，宣布提升iPad、Mac及家居设备的价格，以应对存储成本的快速上涨。 TrendForce分析指出，苹果全面