全新Meta版Sora无预警重磅上线，视频生成模型再进化

时间：2026-07-03 15:38

在AI视频生成领域，数据量级、模型参数量与训练算力的系统性提升，是催生这一强大媒体生成系统的关键基石。Meta在最新论文中着重强调了这一点，而令行业最为振奋的是：他们彻底摒弃了传统的扩散模型与扩散损失函数，转而采用Transformer作为骨干网络，并以流匹配（Flow Matching）作为训练目

在AI视频生成领域，数据量级、模型参数量与训练算力的系统性提升，是催生这一强大媒体生成系统的关键基石。Meta在最新论文中着重强调了这一点，而令行业最为振奋的是：他们彻底摒弃了传统的扩散模型与扩散损失函数，转而采用Transformer作为骨干网络，并以流匹配（Flow Matching）作为训练目标。这无疑是一次架构层面的果断革新。

基于Llama3架构构建视频生成模型

具体而言，Movie Gen由视频生成与音频生成两大模块构成。

Movie Gen Video是一个拥有300亿参数的Transformer模型，它能够根据单段文本提示，直接生成16秒、每秒16帧的高清视频，相当于处理了73K个视频token。在精准视频编辑方面，该模型支持元素的添加、删除或替换，以及背景替换、风格调整等全局性修改。针对个性化视频生成，它在保持角色身份一致性与动作自然性方面，达到了业界领先水平。

Movie Gen Audio则是一个130亿参数的Transformer模型，它能接收视频输入及可选的文本提示，生成与画面同步的高保真音频。

Movie Gen Video通过预训练与微调两阶段完成，其骨干网络沿用了Transformer架构，尤其是借鉴了Llama3的诸多设计理念。

预训练阶段

模型在海量的视频-文本与图像-文本数据集上进行联合训练，从而学习对视觉世界的深层理解。训练数据规模达到上亿级视频以及数十亿级图像，用以掌握运动、场景、物理规律、几何结构及音频等复杂概念。这相当于让模型先“博览群书”，全面感知视觉世界的各种可能性。

微调阶段

研究人员精心挑选了一小部分高质量视频进行有监督微调，以进一步提升生成视频的动作流畅度与美学品质。这好比是对模型进行“精修训练”，使其明确何为高质量、高顺滑度的视觉输出。

性能提升的关键一步在于引入流匹配作为训练目标，这使得视频生成在精度与细节表现上优于传统的扩散模型。简单理解：扩散模型通过逐步添加噪声再逐步去除来逼近目标，迭代步骤多、计算成本高；而流匹配则直接学习样本从噪声分布向目标数据分布转化的速度场，模型只需预测每个时间步的样本演化方向。结果便是：训练效率更高，计算成本更低，生成的视频在时间维度上拥有更佳的连续性与一致性。

在整体架构上，首先通过时空自编码器（TAE）将像素空间中的RGB图像与视频压缩到时空潜空间，学习出一个更为紧凑的表征。接着，输入的文本提示被一系列预训练的文本编码器编码成向量，作为模型的条件信息。这里用到了多种互补的文本编码器：用于理解语义的UL2、与视觉特征对齐的Long-prompt MetaCLIP，以及对视觉文本进行字符级编码的ByT5。最后，生成模型以流匹配的目标函数进行训练，从高斯分布采样的噪声向量作为起点，结合文本条件，生成输出潜码，再经TAE解码，最终得到图像或视频输出。

此外，Movie Gen Video在技术层面还引入了多项创新：

为使模型同时适配图像与视频，设计了一套因子化的可学习位置编码机制——分别对高度、宽度和时间三个维度进行编码，再相加融合。这种方式既能适配不同宽高比，又能支持任意长度的视频生成。针对推理效率问题，采用了线性-二次时间步长调度策略，仅需50步即可逼近原先1000步采样的效果，推理速度大幅提升。

为了进一步提高生成效率，还引入了基于时间平铺的推理方法。在生成高分辨率长视频时，直接对整个视频进行编码解码会面临内存限制。时间平铺技术将输入视频在时间维度上分割成多个片段，每个片段独立编码解码后再拼接。这不仅降低了内存需求，还显著提升了推理效率。此外，解码阶段使用重叠与混合的方式消除片段边界伪影——在片段之间引入重叠区域并进行加权平均，确保视频在时间维度上平滑无缝、高度一致。

Meta还开源了多个基准测试数据集，包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench，为后续研究者提供了权威的评测工具，有助于加速整个领域的进步。这篇长达92页的论文，还介绍了更多关于架构设计、训练方法、数据管理、评估指标、并行训练与推理优化，以及音频模型的详细技术细节。

一点补充观察

AI视频生成领域近期动态频频。就在Meta发布Movie Gen之前不久，OpenAI Sora的核心主创之一Tim Brooks跳槽谷歌DeepMind，继续从事视频生成与世界模拟器方面的研究工作。

这不禁让人联想起当年谷歌迟迟未推出大模型应用，Transformer八位作者纷纷出走的情景。如今OpenAI迟迟未能正式发布Sora，其主要作者也已离开。不过，也有观点认为，Tim Brooks选择此时离开，或许意味着他在OpenAI的核心工作已经告一段落，这也引发了外界猜测：Sora另一位主创Bill Peebles至今未公开发声，背后是否另有隐情？

如今Meta发布了具备视频编辑功能的模型，再加上10月1日Pika 1.5更新主打为视频中物体添加融化、膨胀、挤压等物理特效。不难看出，AI视频生成的下半场，竞争焦点正转向AI视频编辑方向。

来源：https://www.aiagiai.com/4262.html

上一篇教你更高效使用Gemini的7个技巧玩转聊天机器人 下一篇影视行业加速拥抱AIGC 剧本解析与AI智能体融合

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧，覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景，可一键完成系统维护与文件管理工作，极大提升自动化操作效率和便捷性。

AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名； r递归搜索指定路径及其子目录中的文件； l生成数值序列； f可解析文件、字符串或命令输出，通过delims、tokens、skip、eol等选项灵活处理内容。

AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜，因为他们关注你、助你成长。面对批评应包容反思，用行动改进而非辩解。接受批评是自我完善的过程，能让人少走弯路，避免重复犯错。这样的人正是生命中的贵人，值得感恩与珍惜。

AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变，最终核心职责是提供关键信息，协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态，而非单纯把关或追求完美。

AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年，我在田纳西大学攻读研究生时，意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择，说起来还有些戏剧性——某个早晨，教授质问我为何缺席那么多开发会议，我解释说这些会议总是安排在周末早上，对我这个第一次离家、刚入学的学生来说实在不便。结果呢？等待我的不是解聘通