游乐游手机版
首页/科技数码/文章详情

字节Vidi2模型解析:长素材秒变剪辑方案,理解力超Gemini+3 Pro

时间:2025-12-02 14:09
字节跳动近日推出全新视频生成模型Vidi2,在视频理解与处理领域实现重大突破。该模型不仅具备超越Gemini 3 Pro的时空定位能力,更开创性地将视频剪辑、剧本创作与特效生成等复杂任务整合为端到端

字节跳动近日推出了全新的视频生成模型Vidi2,在视频理解与处理领域实现了重大突破。该模型不仅具备超越Gemini 3 Pro的时空定位能力,更创新地将视频剪辑、剧本创作与特效生成等复杂任务整合为端到端解决方案,为影视创作领域带来颠覆性变革。

在核心功能演示中,Vidi2展现出令人惊艳的自动化创作能力。用户仅需提供原始素材与创意方向,模型即可自动生成包含镜头时长、播放速度、字幕样式甚至吐槽旁白的完整剪辑方案。通过JSON格式的指令输出,创作者能够直接从数小时素材中精准提取高光片段,实现电影级效果的批量生成。这种能力使得短视频创作者能够突破传统剪辑流程的束缚,将更多精力投入创意构思。

技术测试数据显示,Vidi2在时空定位任务中取得压倒性优势。其vIoU-Int.指标达到60.3%,较GPT-5的33.6%提升近一倍,更是Gemini 3 Pro Preview的3.6倍。在超长视频处理场景下,模型仍能保持38.7%的检索精度,即便面对运动速度极快的微小目标,也能实现稳定跟踪。这种突破性表现源于其创新的端到端架构设计,能够同时锁定目标事件的时间片段与空间边界框轨迹。

模型架构层面,研发团队以Vidi1为基础框架,集成Google开源的Gemma-3模型与增强型视觉编码器,构建起达120亿参数的庞大底座。通过分解注意力机制,将传统Transformer的全注意力运算拆解为视觉、文本及跨模态三个独立模块,使计算复杂度从平方级降至线性级。这种设计使模型在有限显存条件下即可处理长达一小时的视频流,同时保持高精度特征提取能力。

针对时空定位数据稀缺的难题,研发团队开发出独特的数据合成方案。通过滑动窗口算法在静态图像上模拟摄像机运动,自动生成随时间连续变化的边界框序列。这种动态扩展技术将现有图像级空间定位数据转化为视频级训练素材,配合海量人工标注的真实视频数据,形成多阶段强化训练体系。最终训练阶段采用的时间感知多模态对齐策略,通过双向预测任务与开放式问答验证,显著提升了模型在视听文本三模态间的语义关联能力。

行业观察指出,Vidi2的崛起标志着AI视频生成领域进入数据驱动的新阶段。字节跳动凭借旗下短视频平台的海量数据积累,构建起独特的竞争优势。与依赖YouTube数据的国际模型相比,Vidi2在短视频场景下的优化表现尤为突出,其自适应Token压缩策略能够根据视频时长动态调节信息密度,在处理短视频时保留高密度特征,长视频则通过压缩降低计算负载。这种灵活的数据处理机制,为不同时长的视频创作提供了统一解决方案。

来源:https://www.itbear.com.cn/html/2025-12/1035616.html
上一篇vivo遭毁灭性评论置顶?实测为你揭秘主播误触真相 下一篇马斯克声明:特斯拉因安全难题不涉足摩托车制造领域
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5