优酷木可实验室AI导演系统让视频生成听懂分镜故事

时间：2026-06-04 12:39

研究提出SmartDirector系统，通过多块VAE和MC-RoPE技术解决关键帧因果冲突，实现分镜故事板驱动的视频生成。两阶段流程先构建低分辨率骨架再超分修复，显著提升叙事连贯性和画面质量，在多镜头场景中表现优于现有方案。

2026年5月27日，中国科学院自动化研究所携手华中科技大学以及优酷木可实验室，在arXiv上发布了一项重要研究成果——论文编号2605.27891。研究主题直击核心：如何让AI视频生成真正掌握“故事叙述”能力。

视频生成，缺的不是画质，而是“叙事能力”

拍摄过电影或看过幕后花絮的人都清楚，导演在开机前必须绘制“分镜故事板”——那些手绘草图，标注出每个镜头的构图、人物站位、光线方向以及镜头间的衔接逻辑。这些草图虽粗糙，谈不上艺术价值，却承载着极为关键的要素：整部影片的“节奏感”和“叙事逻辑”。有了它，摄影师知道何时推进镜头，演员知道何时停顿，剪辑师明白如何让两个场景像齿轮般紧密咬合。

如今，AI视频生成已能达到画面精细、动作流畅的效果，乍看之下颇具竞争力。但问题在于交互方式——当前多数AI视频系统只接受两类指令：一段文字描述，或给定视频的第一帧/最后一帧。这好比只告诉导演“这戏发生在古代，有个武士”，就任其自由发挥。生成的画面或许赏心悦目，但绝非你脑补的那个具体故事。一旦你想精准控制“第二秒角色走到画面中央、第五秒镜头拉远、第八秒切到第二个场景”这类叙事节奏，现有系统立刻失去响应。

正是意识到这一空白，研究团队提出了SmartDirector——一个真正能“读懂分镜”的AI导演。其思路十分古典：将关键帧视为分镜故事板，让AI在这些关键帧的约束下自动补全中间的所有内容，从而还原创作者预设的叙事节奏。

一、AI导演面临的核心难题：时间轴上的“因果诅咒”

在讲解SmartDirector如何破局之前，有必要先了解为什么这件事“一说就懂，一做就卡壳”。

现有视频生成系统在编码时，依赖一种被称为“3D变分自编码器”（3D VAE）的结构。可以把它想象成一台视频压缩器，但它的运作方式具有一种奇特的约束：处理帧的方式不平等——第一帧独立压缩，但从第二帧开始，每四帧为一组，每组都必须依赖前一帧的信息才能正确压缩。这种设计称为“因果结构”，后续帧天然地依赖前面帧，像一串珠子，每颗都被前一颗串着。

在普通视频生成中，这种设计完全适用。但一旦你想在视频中间的任意位置“插入”一个关键帧，问题就来了。压缩器并不知道这个插入帧是一个“新的起点”，它会强行用前后帧的信息“污染”该关键帧的编码。结果：关键帧虽然出现在正确的时间位置，但它的视觉内容已被周围帧严重稀释。生成的视频会在关键帧附近出现明显的画面跳动、闪烁，甚至角色凭空消失或突然变脸。

此前也有一些研究尝试过不同路径。有的将相邻两个关键帧分别作为一小段视频的开头来生成，再拼接——结果每段只顾自己的两头，完全忽略整体叙事，拼接处断裂感非常明显。有的直接将关键帧塞入噪声潜空间——恰好踩中上面的“因果结构陷阱”，画面错乱不堪。还有的把关键帧沿时间轴复制四次来填充一组，以绕开因果问题——但复制出的帧信息完全一致，导致那一段视频的动作完全静止，人物手臂凝固在空中，看起来就像视频卡顿了。

二、多块VAE：为每个关键帧赋予一个“独立起点”

SmartDirector的核心创新之一，是一种称为“多块VAE”（Multi-Chunk VAE）的编码策略，通过一个简单思路绕开了上述因果陷阱。

原理并不复杂：既然压缩器的规则是“第一帧独立处理”，那就让每个关键帧都成为某段视频的“第一帧”。具体做法是，按照关键帧的位置，将整段视频切分成若干块（Chunk），每个关键帧都是它所在块的第一帧。这样一来，每个关键帧都会被压缩器当作独立起点单独处理，不会被前后帧污染。每块视频独立压缩完之后，再将所有块的“压缩结果”（潜在序列）在时间维度上拼接成一个完整序列，送入后续的生成模型处理。

举个例子：原来的做法是将一本书的所有页码连续编号，中间不能有新的“第一页”；多块VAE的做法是将这本书拆成若干章，每章都有自己的第一页，然后再将所有章合订成一本书。关键帧始终是某一章的第一页，所以它的内容始终干净、独立。

三、MC-RoPE：让时间索引在章节边界处“轻踏一步”

解决了编码问题，还有一个更微妙的挑战摆在面前。

视频生成模型在处理帧序列时，需要给每一帧标注它在时间轴上的位置，就像给照片贴上时间戳。通常，这些时间戳是连续整数：0、1、2、3……每帧递增1。但多块VAE将视频切块后，每个关键帧既是上一块的“紧接下文”，又是下一块的“全新开始”。如果使用连续整数索引，关键帧在时间轴上的位置感就会出现矛盾——前后两块的时间逻辑会在关键帧处“对撞”，导致生成的动作在边界处产生细微跳变。

研究团队为此设计了“多块旋转位置编码”（MC-RoPE）。规则只有一处精妙调整：在普通帧之间，时间索引每次递增1；但遇到关键帧时，时间索引只递增0.25。这意味着关键帧在时间轴上被标记为一个“小步”而非“完整步”，它轻轻地“踩在”前一块的结尾和下一块的开头之间，既保持了连续性，又清晰标出了自己的边界位置。

结果就是，模型在处理跨块内容时，能够感知到关键帧是一个“锚点”而非普通过渡帧。这样一来，在生成中间内容时，模型能以关键帧为参照，避免时间轴上的混乱。

四、两阶段流程：先搭骨架，再填细节

SmartDirector整体上是一个两阶段系统，分别称为Director-Gen（生成阶段）和Director-SR（超分阶段）。

第一阶段Director-Gen的任务是“搭骨架”。它接收用户提供的关键帧和文字描述，利用前面介绍的多块VAE策略和MC-RoPE，通过一个大型扩散变换器（DiT）模型生成完整的低分辨率视频（480p级别）。在此阶段，模型采用“全时空注意力机制”，意味着视频中每一帧都可以“看到”所有其他帧——无论它们属于哪一块，距离多远。这确保了整段视频在全局层面的一致性：角色的外貌、场景的氛围、叙事的节奏都能贯穿始终。

第二阶段Director-SR的任务是“填细节”。480p视频的画质对实际应用来说往往不够——人脸模糊、文字失真、衣物纹理缺失。传统视频超分辨率方法只是从数学上“猜测”缺失的像素，并不知道画面里“本来应该是什么样子”。Director-SR则不同：它同样采用多块VAE策略，将用户提供的高分辨率关键帧作为“语义锚点”。在超分处理过程中，关键帧位置的低分辨率内容直接被替换为高分辨率的关键帧信息，然后模型以这些高清锚点为参照，将相邻的低分辨率帧恢复到1080p级别。这样一来，人脸的细节、衣物的图案、场景中的文字，都能从关键帧里“借来”正确的高频信息，被真实还原，而非凭空猜测。

五、数据管道：从海量电影中学会“看懂分镜”

训练这样一个系统需要大量高质量的多镜头视频数据，以及与之配套的详细文字描述。为此，研究团队搭建了一整套数据处理流水线。

流水线的第一步是收集视频素材。团队从公开可用的无版权电影中收集大量视频，使用名为AutoShot的工具自动识别每个镜头边界，将长片切割成一个个单镜头片段。然后，借助视觉语言模型的分析能力，将那些场景相同、故事连贯的单镜头片段重新组合，形成多镜头视频序列。

第二步是为视频添加结构化描述。这里用到三个工具：VGGT负责估算镜头运动的几何轨迹（如推、拉、横移）；Qwen3-VL利用视觉理解能力将这些轨迹翻译成自然语言（例如“镜头向右平移并逐渐拉近”）；SAM2负责在整段视频中追踪每一个出现的角色，确保同一个人在不同镜头中的外貌描述保持一致。

第三步是生成分层描述。将上面收集到的镜头内容、摄影机描述和角色描述，一起输入Gemini-3-Pro，让它生成一份统一格式的“分镜脚本”。这份脚本包含两层：一层是对整段多镜头视频的全局叙事总结，另一层是对每个镜头的独立描述，包括该镜头的时间范围、转场类型、摄影机运动和主要视觉内容。这种数据形式与电影导演使用的分镜脚本高度对齐，正是训练SmartDirector所需要的。最终，数据集包含了超过200万个单镜头片段和40万个多镜头序列。

六、测试结果：数字与人眼都说“更好”

研究团队构建了一个专门的评测基准，从电影、电视剧和动画中收集了250段单镜头视频和250段多镜头视频，时长从3秒到15秒不等，均以24帧/秒、至少1080p原生分辨率呈现。每段视频随机抽取若干帧作为关键帧条件，用于测试。对比对象是Dreamina多帧（字节跳动旗下即梦AI），目前市面上最具代表性、支持多关键帧条件视频生成的商业系统。

在客观指标方面，团队使用FVD（衡量生成视频与真实视频在统计分布上的差距，数值越低越好）进行评测。单镜头场景中，Dreamina的FVD为226.85，SmartDirector降至41.12，差距超过五倍。多镜头场景中，差距更加悬殊：Dreamina为251.83，SmartDirector为65.65。多镜头场景本身更复杂，因为涉及场景切换和镜头剪辑，两者在这一场景下的差距反而比单镜头更大，说明SmartDirector在处理叙事复杂度时表现更加稳定。

在语义评估方面，团队让Gemini-3-Pro对生成视频打分，维度涵盖五个方面：指令遵循度、叙事连贯性、物理一致性、视频质量和视觉美观度。单镜头场景中，Dreamina平均分83.87，SmartDirector为91.30，其中叙事连贯性一项提升最显著，上涨了12.56分。多镜头场景中，差距进一步拉大：Dreamina仅得59.32分，SmartDirector达到88.48分，将近30分的差距非常醒目。

人类评测方面，团队招募了30名参与者，对500对视频进行盲测对比（参与者不知道哪段视频由哪个系统生成）。评测采用“好/中/差”三档比较法，从身份一致性、叙事节奏、关键帧还原度和总体质量四个维度打分。单镜头场景中，SmartDirector在叙事节奏方面的优势尤为突出；多镜头场景中，总体质量维度的胜率高达54.73%，且身份一致性的GSB得分接近+50，说明SmartDirector在多场景切换后依然能维持角色外貌的稳定，而Dreamina在这方面明显吃力。

七、超分阶段的独立对比：语义锚点优于纯像素修复

研究团队还专门将Director-SR与另一个关键帧条件视频超分系统SparkVSR进行独立对比，在四个公开超分辨率基准数据集（UDM10、SPMCS、YouHQ40、RealVSR）上测试。

结果显示，两者在PSNR（峰值信噪比）和SSIM（结构相似度）这两个衡量像素精准度的指标上表现相当，但Director-SR在LPIPS（感知相似度，衡量人眼感知质量，越低越好）上，在全部四个数据集上均显著优于SparkVSR。以YouHQ40数据集为例，SparkVSR的LPIPS为0.3501，Director-SR降至0.1366，不到前者的一半。这意味着Director-SR修复出的视频，在人眼看来更接近高清参考视频，细节更真实，而不只是数学意义上“更准确”。

定性对比同样令人印象深刻：SparkVSR在面对严重模糊的人脸或失真的文字时，往往无法恢复出正确的特征，只是让模糊区域变得稍微清晰一些，但细节依然是错的。而Director-SR因为有高清关键帧作为语义参照，能够“知道这里的脸应该长什么样”，从而真正还原出正确的面部特征和清晰的文字内容。

八、消融实验：证明每个设计选择都不可或缺

为了验证多块VAE设计的必要性，研究团队做了两个对照实验。

第一个对照组称为“不用多块策略”，即直接把关键帧插入普通的连续潜在序列中，不做切块处理。结果出现了两种典型失败：一是在关键帧前后的帧出现运动轨迹突变，角色的手在帧49和帧50之间发生明显跳跃；二是模型因无法正确处理因果冲突，直接把帧96的关键帧内容“复制”到了帧47的位置，然后在帧50突然消失——完全不符合任何叙事逻辑。

第二个对照组称为“关键帧复制法”，即把每个关键帧沿时间轴复制四次，凑满一组四帧，以符合VAE的因果结构。这个方法解决了因果冲突问题，但代价是那一组四帧的内容完全相同，导致视频在关键帧附近出现明显的“静止卡顿”，角色的手臂在连续多帧中一动不动。

与这两个对照组相比，SmartDirector的多块设计在保持因果结构合法性的同时，允许自然的动作过渡，视频中没有跳变，也没有卡顿，动作流畅且连贯。

写在最后：AI导演的第一步，或许也是关键一步

归根结底，SmartDirector所做的是：将“关键帧”这个电影工业中已沿用几十年的概念，真正融入AI视频生成的工作流。以往的AI视频生成更像让一个会画画的人闭眼随机创作；现在，研究团队给这个人递上了分镜故事板，让他知道在哪个时刻该画什么，整个创作过程因此有了明确的方向感。

这项研究对普通创作者的潜在意义相当直接：如果你是短视频创作者、独立动画导演，或只是有个具体故事想用视频表达，SmartDirector这类系统意味着你只需准备几张关键画面，就能得到一段完整、连贯、符合你叙事预期的视频，而不再是靠运气等待AI“刚好生成了你想要的样子”。

当然，这套系统并非没有局限。两阶段流程在节省计算资源的同时，不可避免地会在第一阶段引入一些信息损失，超分阶段虽然能部分弥补，但理论上与单阶段直接生成高分辨率视频相比，仍有细节上的轻微差距。此外，VAE的结构要求每块视频的帧数必须满足“4的倍数加1”的约束，这意味着关键帧无法精确落在任意一帧，最多有正负两帧的时间偏移——对大多数创作场景来说几乎感知不到，但在极端精确控制的需求下仍是一个限制。

有兴趣深入了解技术细节的读者，可通过arXiv编号2605.27891查阅完整论文，也可访问项目主页获取更多示例。

Q&A

Q1：SmartDirector和普通AI视频生成工具有什么区别？
A：普通AI视频工具通常只接受文字描述或首尾两帧作为输入，无法精确控制视频中间每个时间点的画面内容。SmartDirector允许用户提供任意数量的关键帧，系统会自动在这些关键帧之间生成过渡内容，生成的视频会严格经过这些关键帧，因此创作者可以像电影导演使用分镜一样精确控制视频的叙事节奏。

Q2：多块VAE策略解决了什么具体问题？
A：现有视频压缩结构（3D因果VAE）要求视频帧按顺序依赖前帧编码，直接在中间插入关键帧会破坏这种依赖关系，导致关键帧附近出现画面跳变和视觉错误。多块VAE的做法是将视频按关键帧位置切成若干段，每段的关键帧都作为该段的第一帧独立编码，从根本上避免了因果冲突，让每个关键帧都能被干净、准确地保留。

Q3：Director-SR超分阶段和普通视频超分辨率有什么不同？
A：普通视频超分辨率只关注像素层面的恢复，不知道画面里“本来应该是什么内容”，遇到严重模糊的人脸或文字时往往只能猜测。Director-SR额外接受高分辨率关键帧作为语义参照，将关键帧的高清内容作为锚点，引导模型恢复相邻低分辨率帧的真实细节，因此能还原出正确的面部特征和清晰文字，而不仅是数学意义上的“更清晰的模糊”。

来源：https://www.163.com/dy/article/KUHF4EFM0511DTVV.html

实验室

上一篇百度ERNIE团队音视频统一生成黑科技 下一篇80后国家杰青海洋古菌专家出任深圳大学副校长

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。