字节开源统一框架Bernini，AI视频编辑告别随机性_AI热点日报

字节开源统一框架Bernini，AI视频编辑告别随机性

类型：热点整理2026-06-04

人工智能视频生成与编辑技术正迎来一场底层逻辑的重大变革。字节跳动商业化技术团队近期开源了一款名为Bernini的统一框架，专门面向AI视频生成与编辑领域。这一框架的核心思路可以用一句话概括：先深度理解，再精准生成。传统模型在处理复杂文本指令时，常常出现画面失控、帧间闪烁等行业常见痛点，根源在于它们对

人工智能视频生成与编辑技术正迎来一场底层逻辑的重大变革。字节跳动商业化技术团队近期开源了一款名为Bernini的统一框架，专门面向AI视频生成与编辑领域。这一框架的核心思路可以用一句话概括：先深度理解，再精准生成。传统模型在处理复杂文本指令时，常常出现画面失控、帧间闪烁等行业常见痛点，根源在于它们对指令的理解仍停留在表层——而Bernini要解决的，正是这一根本性问题。

过去进行AI视频编辑，最大的挑战莫过于主体变形、背景漂移或动作断裂。Bernini的出现，为这些视频编辑痛点提供了全新的解决思路。它将工作流程拆分为两大核心模块：语义规划与视觉渲染。具体而言，系统中的多模态大模型规划器首先对输入的素材进行深度解析——无论是文本内容、视频片段还是参考图像，都在特征空间中预先预测出目标语义表示，相当于绘制一张不限定像素的“语义草图”；随后，基于Diffusion Transformer的渲染器负责将这张草图转化为稳定、连续的视频画面。

正是由于这种分工明确的架构设计，Bernini在可控视频编辑方面展现出显著的实用价值。用户仅需一条指令，就能让画面中的天气、季节、材质、视觉风格发生逼真自然的变化，同时还能对镜头视角、焦点、主体动作进行精准的语义控制。举例来说，在保持环境与镜头高度稳定的前提下，系统可以让视频中动物的动作实现自然改变——这样一来，AI视频编辑在精准度方面，就距离传统后期软件更近了一步。

除了文本指令操控，Bernini还支持图片和视频作为视觉参考输入，这显著提升了内容创作的一致性。在视频编辑场景中，它能将特定材质、主体甚至广告海报精准植入目标区域，边界不会出现破损，透视关系也不会混乱；而在新视频生成场景中，该模型支持单图参考生成、多角度参考生成、关键帧到连续镜头的演变，甚至能将几件看似毫不相关的单品图像完美组合到同一个视频角色身上。

另一个值得关注的技术细节是，团队为了解决多视觉片段串联时模型容易混淆的问题，引入了SA-3D RoPE位置编码机制。该机制的核心作用是为不同的视觉片段添加专属标记，让模型在保留时空位置关系的同时，清晰区分参考素材与输出目标。根据字节跳动自建的测试结果，该框架的表现已稳居行业第一梯队。目前，Bernini的推理代码与第二阶段模型Bernini-R的权限已正式开放，包含完整MLLM规划器的全版本也将在近期解禁——值得持续关注。

来源：https://news.aibase.com/zh/news/28601

ai

延伸阅读

补充最近整理过的热点入口。

字节开源统一框架Bernini，AI视频编辑告别随机性

相关热点

延伸阅读