揭秘AI视频生成全过程：从原理到应用的深度解析

时间：2026-01-12 19:07

（来源：麻省理工科技评论）这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界，助您洞察未来趋势。对于视频生成领域来说，2025 年是重要的一年。在过去的一年里，O

（来源：麻省理工科技评论）

这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界，助您洞察未来趋势。

对于视频生成领域来说，2025 年是重要的一年。在过去的一年里，OpenAI 公开了 Sora，Google DeepMind 推出了 Veo 3，视频初创公司 Runway 发布了 Gen-4。所有这些模型生成的视频片段，几乎无法与真实拍摄的素材或 CGI 动画区分开来。今年，Netflix 还在其剧集《永恒族》（The Eternaut）中首次使用了 AI 视觉特效。

当然，你在演示视频中看到的片段都是经过精心挑选的，旨在展示公司模型处于最佳状态时的表现。但随着这项技术掌握在比以往任何时候都多的用户手中——Sora 和 Veo 3 现已在 ChatGPT 和 Gemini 应用中向付费订阅者开放——即便是业余的影视爱好者，现在也能通过 AI 制作出色的作品。

负面影响在于，创作者正面临大量低质量 AI 内容（AI slop）的竞争，社交媒体上也充斥着虚假的新闻片段。此外，视频生成消耗的能源巨大，是文本或图像生成的许多倍。

既然 AI 生成的视频无处不在，让我们花点时间来探讨一下其背后的技术原理。

如何生成一个视频？

我们假设你只是一名普通用户。现在有一系列高端工具允许专业视频制作者将视频生成模型整合到他们的工作流程中，但大多数人会通过应用程序或使用这项技术。流程你应该很熟悉：“嘿，Gemini，给我做一个独角兽吃意大利面的视频，然后让它的角像火箭一样发射升空。”你得到的结果可能好坏参半。通常你需要要求模型重新生成几次甚至十次，才能得到与你预期大致相符的内容。

那么，这一切的底层逻辑是什么？为什么结果会好坏参半？为什么它消耗这么多能源？最新一波视频生成模型被称为“潜在扩散 Transformer”（latent diffusion transformers）。没错，这个名字读起来很拗口。让我们依次拆解每个部分，从“扩散”开始。

什么是扩散模型？

想象一下，取一张图像，并在上面随机散布像素点。拿着这张布满噪点的图像，再次散布像素，然后重复这一过程。重复足够多次后，最初的图像就会变成一团随机的像素混乱，就像老式电视机上的雪花噪点。

扩散模型是一种神经网络，经过训练可以逆转这一过程，将随机的噪点转化为图像。在训练过程中，它会看到处于不同像素化阶段的数百万张图像。它学习这些图像在每次添加新像素时的变化规律，从而学习如何撤销这些变化。

结果就是，当你要求扩散模型生成图像时，它会从一团随机的像素混乱开始，一步步将这一混乱转化为与其训练集中的图像大致相似的图像。

但你不想要随便一张图像——你想要你指定的图像，通常通过文本提示词来描述。因此，扩散模型会与第二个模型配对。这个辅助模型通常是一个经过训练、能将图像与文本描述匹配的大语言模型（LLM）。它指导清理过程的每一步，推动扩散模型生成大语言模型认为与提示词匹配度高的图像。

另外，这个大语言模型并不是凭空建立文本与图像之间的联系。如今大多数文本生成图像和文本生成视频的模型，都是在包含数十亿对文本与图像或文本与视频的大型数据集上训练的。这些数据是从互联网上抓取的（这种做法让许多创作者非常不满）。这意味着你从这些模型中得到的内容，是网络世界表现形式的浓缩，其中也包含了偏见（以及色情内容）带来的扭曲。

我们要理解扩散模型如何处理图像很容易。但这该技术也可以用于多种类型的数据，包括音频和视频。为了生成电影片段，扩散模型必须清理一系列图像，而不仅仅是一张图像——即视频的连续帧。

什么是潜在扩散模型？

所有这些都需要巨大的算力（也就是能源）。这就是为什么大多数用于视频生成的扩散模型使用一种称为“潜在扩散”（latent diffusion）的技术。模型不处理每个视频帧中数百万像素的原始数据，而是在所谓的“潜在空间”中工作。在这个空间里，视频帧（和文本提示词）被压缩成数学代码。这些代码只捕捉数据的基本特征，并丢弃其余部分。

类似的原理发生在你通过互联网流式传输视频时：视频以压缩格式从服务器发送到你的屏幕，以便更快传输。到达后，你的电脑或电视会将其转换回可观看的视频。

因此，最后一步是对潜在扩散过程产生的结果进行解压。一旦随机噪点的压缩帧被转化为压缩后的视频帧（且大语言模型向导认为这与用户的提示词匹配良好），压缩视频就会被转换成你可以观看的内容。

通过使用潜在扩散技术，扩散过程的工作方式与处理图像时大致相同。区别在于，像素化的视频帧现在是这些帧的数学编码，而不是帧本身。这使得潜在扩散比典型的扩散模型效率高得多。（即便如此，视频生成消耗的能源仍然比图像或文本生成多。涉及的计算量依然惊人。）

什么是潜在扩散 Transformer？

还有一个谜题尚未解开，那就是如何确保扩散过程产生一系列连贯的帧，保持物体和光线等元素在帧与帧之间的一致性。OpenAI 在开发 Sora 时，通过将其扩散模型与另一种称为 Transformer 的模型相结合，解决了这个问题。这已成为生成式视频的标准做法。

Transformer 擅长处理长序列数据，比如文字。这使它们成为 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大语言模型内部的关键技术。这些模型可以生成意义通顺的长文本序列，并在数十个句子中保持一致性。

但视频不是由文字组成的。相反，视频被切割成块，以便像处理文字一样处理它们。OpenAI 提出的方法是在空间和时间两个维度上对视频进行切割。Sora 的首席研究员蒂姆·布鲁克斯（Tim Brooks）说：“这就像你有一摞所有的视频帧，然后从中切出小立方体。”

将扩散模型与 Transformer 结合带来了一些优势。由于 Transformer 专为处理序列数据而设计，它们有助于扩散模型在生成过程中保持帧与帧之间的一致性。这使得生成的视频中，物体不会莫名其妙地出现或消失。

此外，由于视频被切成了块，其尺寸和方向就不再重要。这意味着最新一波视频生成模型可以在广泛的示例视频上进行训练，从手机拍摄的短竖屏视频到宽银幕电影。训练数据的多样性使得视频生成技术远胜于两年前。这也意味着视频生成模型现在可以按要求生成各种格式的视频。

音频如何生成？

Veo 3 的一大进步是它可以生成带有音频的视频，从口型同步的对话到音效和背景噪音。这是视频生成模型的首创。Google DeepMind 首席执行官德米斯·哈萨比斯（Demis Hassabis）在今年的 Google I/O 大会上说：“我们正在走出视频生成的无声时代。”

这一技术的挑战在于找到一种方法来对齐视频和音频数据，以便扩散过程能同时处理两者。Google DeepMind 的突破在于一种新方法，它将音频和视频压缩成扩散模型内部的一块单一数据。当 Veo 3 生成视频时，其扩散模型通过同步过程同时产生音频和视频，确保声音和图像是对齐的。

大语言模型也是这样工作的吗？

至少目前还不是。扩散模型最常用于生成图像、视频和音频。用于生成文本（包括计算机代码）的大语言模型是使用 Transformer 构建的，但其界限正在变得模糊。我们已经看到 Transformer 正在与扩散模型结合以生成视频。今年夏天，Google DeepMind 透露，通过使用扩散模型而非 Transformer 来生成文本，他们正在构建一个实验性的大语言模型。

这里情况开始变得令人困惑：虽然视频生成（使用扩散模型）消耗大量能源，但扩散模型本身实际上比 Transformer 更高效。因此，通过使用扩散模型代替 Transformer 来生成文本，Google DeepMind 的新大语言模型可能比现有模型效率高得多。在不久的将来，预计我们会看到更多基于扩散模型的成果。

https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

来源：https://www.163.com/dy/article/KJ3BS91H05119734.html