游乐游手机版
首页/科技数码/文章详情

字节Vidi2模型解析:长素材秒变剪辑方案,理解力超Gemini+3 Pro

时间:2025-12-02 14:09
字节跳动近日推出全新视频生成模型Vidi2,在视频理解与处理领域实现重大突破。该模型不仅具备超越Gemini 3 Pro的时空定位能力,更开创性地将视频剪辑、剧本创作与特效生成等复杂任务整合为端到端

字节跳动近日推出了全新的视频生成模型Vidi2,在视频理解与处理领域实现了重大突破。该模型不仅具备超越Gemini 3 Pro的时空定位能力,更创新地将视频剪辑、剧本创作与特效生成等复杂任务整合为端到端解决方案,为影视创作领域带来颠覆性变革。

在核心功能演示中,Vidi2展现出令人惊艳的自动化创作能力。用户仅需提供原始素材与创意方向,模型即可自动生成包含镜头时长、播放速度、字幕样式甚至吐槽旁白的完整剪辑方案。通过JSON格式的指令输出,创作者能够直接从数小时素材中精准提取高光片段,实现电影级效果的批量生成。这种能力使得短视频创作者能够突破传统剪辑流程的束缚,将更多精力投入创意构思。

技术测试数据显示,Vidi2在时空定位任务中取得压倒性优势。其vIoU-Int.指标达到60.3%,较GPT-5的33.6%提升近一倍,更是Gemini 3 Pro Preview的3.6倍。在超长视频处理场景下,模型仍能保持38.7%的检索精度,即便面对运动速度极快的微小目标,也能实现稳定跟踪。这种突破性表现源于其创新的端到端架构设计,能够同时锁定目标事件的时间片段与空间边界框轨迹。

模型架构层面,研发团队以Vidi1为基础框架,集成Google开源的Gemma-3模型与增强型视觉编码器,构建起达120亿参数的庞大底座。通过分解注意力机制,将传统Transformer的全注意力运算拆解为视觉、文本及跨模态三个独立模块,使计算复杂度从平方级降至线性级。这种设计使模型在有限显存条件下即可处理长达一小时的视频流,同时保持高精度特征提取能力。

针对时空定位数据稀缺的难题,研发团队开发出独特的数据合成方案。通过滑动窗口算法在静态图像上模拟摄像机运动,自动生成随时间连续变化的边界框序列。这种动态扩展技术将现有图像级空间定位数据转化为视频级训练素材,配合海量人工标注的真实视频数据,形成多阶段强化训练体系。最终训练阶段采用的时间感知多模态对齐策略,通过双向预测任务与开放式问答验证,显著提升了模型在视听文本三模态间的语义关联能力。

行业观察指出,Vidi2的崛起标志着AI视频生成领域进入数据驱动的新阶段。字节跳动凭借旗下短视频平台的海量数据积累,构建起独特的竞争优势。与依赖YouTube数据的国际模型相比,Vidi2在短视频场景下的优化表现尤为突出,其自适应Token压缩策略能够根据视频时长动态调节信息密度,在处理短视频时保留高密度特征,长视频则通过压缩降低计算负载。这种灵活的数据处理机制,为不同时长的视频创作提供了统一解决方案。

来源:https://www.itbear.com.cn/html/2025-12/1035616.html
上一篇vivo遭毁灭性评论置顶?实测为你揭秘主播误触真相 下一篇马斯克声明:特斯拉因安全难题不涉足摩托车制造领域
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。