揭秘AI视频生成全过程:从原理到应用的深度解析

(来源:麻省理工科技评论)
这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。
对于视频生成领域来说,2025 年是重要的一年。在过去的一年里,OpenAI 公开了 Sora,Google DeepMind 推出了 Veo 3,视频初创公司 Runway 发布了 Gen-4。所有这些模型生成的视频片段,几乎无法与真实拍摄的素材或 CGI 动画区分开来。今年,Netflix 还在其剧集《永恒族》(The Eternaut)中首次使用了 AI 视觉特效。
当然,你在演示视频中看到的片段都是经过精心挑选的,旨在展示公司模型处于最佳状态时的表现。但随着这项技术掌握在比以往任何时候都多的用户手中——Sora 和 Veo 3 现已在 ChatGPT 和 Gemini 应用中向付费订阅者开放——即便是业余的影视爱好者,现在也能通过 AI 制作出色的作品。
负面影响在于,创作者正面临大量低质量 AI 内容(AI slop)的竞争,社交媒体上也充斥着虚假的新闻片段。此外,视频生成消耗的能源巨大,是文本或图像生成的许多倍。
既然 AI 生成的视频无处不在,让我们花点时间来探讨一下其背后的技术原理。

如何生成一个视频?
我们假设你只是一名普通用户。现在有一系列高端工具允许专业视频制作者将视频生成模型整合到他们的工作流程中,但大多数人会通过应用程序或 使用这项技术。流程你应该很熟悉:“嘿,Gemini,给我做一个独角兽吃意大利面的视频,然后让它的角像火箭一样发射升空。”你得到的结果可能好坏参半。通常你需要要求模型重新生成几次甚至十次,才能得到与你预期大致相符的内容。
那么,这一切的底层逻辑是什么?为什么结果会好坏参半?为什么它消耗这么多能源?最新一波视频生成模型被称为“潜在扩散 Transformer”(latent diffusion transformers)。没错,这个名字读起来很拗口。让我们依次拆解每个部分,从“扩散”开始。

什么是扩散模型?
想象一下,取一张图像,并在上面随机散布像素点。拿着这张布满噪点的图像,再次散布像素,然后重复这一过程。重复足够多次后,最初的图像就会变成一团随机的像素混乱,就像老式电视机上的雪花噪点。
扩散模型是一种神经网络,经过训练可以逆转这一过程,将随机的噪点转化为图像。在训练过程中,它会看到处于不同像素化阶段的数百万张图像。它学习这些图像在每次添加新像素时的变化规律,从而学习如何撤销这些变化。
结果就是,当你要求扩散模型生成图像时,它会从一团随机的像素混乱开始,一步步将这一混乱转化为与其训练集中的图像大致相似的图像。
但你不想要随便一张图像——你想要你指定的图像,通常通过文本提示词来描述。因此,扩散模型会与第二个模型配对。这个辅助模型通常是一个经过训练、能将图像与文本描述匹配的大语言模型(LLM)。它指导清理过程的每一步,推动扩散模型生成大语言模型认为与提示词匹配度高的图像。
另外,这个大语言模型并不是凭空建立文本与图像之间的联系。如今大多数文本生成图像和文本生成视频的模型,都是在包含数十亿对文本与图像或文本与视频的大型数据集上训练的。这些数据是从互联网上抓取的(这种做法让许多创作者非常不满)。这意味着你从这些模型中得到的内容,是网络世界表现形式的浓缩,其中也包含了偏见(以及色情内容)带来的扭曲。
我们要理解扩散模型如何处理图像很容易。但这该技术也可以用于多种类型的数据,包括音频和视频。为了生成电影片段,扩散模型必须清理一系列图像,而不仅仅是一张图像——即视频的连续帧。

什么是潜在扩散模型?
所有这些都需要巨大的算力(也就是能源)。这就是为什么大多数用于视频生成的扩散模型使用一种称为“潜在扩散”(latent diffusion)的技术。模型不处理每个视频帧中数百万像素的原始数据,而是在所谓的“潜在空间”中工作。在这个空间里,视频帧(和文本提示词)被压缩成数学代码。这些代码只捕捉数据的基本特征,并丢弃其余部分。
类似的原理发生在你通过互联网流式传输视频时:视频以压缩格式从服务器发送到你的屏幕,以便更快传输。到达后,你的电脑或电视会将其转换回可观看的视频。
因此,最后一步是对潜在扩散过程产生的结果进行解压。一旦随机噪点的压缩帧被转化为压缩后的视频帧(且大语言模型向导认为这与用户的提示词匹配良好),压缩视频就会被转换成你可以观看的内容。
通过使用潜在扩散技术,扩散过程的工作方式与处理图像时大致相同。区别在于,像素化的视频帧现在是这些帧的数学编码,而不是帧本身。这使得潜在扩散比典型的扩散模型效率高得多。(即便如此,视频生成消耗的能源仍然比图像或文本生成多。涉及的计算量依然惊人。)

什么是潜在扩散 Transformer?
还有一个谜题尚未解开,那就是如何确保扩散过程产生一系列连贯的帧,保持物体和光线等元素在帧与帧之间的一致性。OpenAI 在开发 Sora 时,通过将其扩散模型与另一种称为 Transformer 的模型相结合,解决了这个问题。这已成为生成式视频的标准做法。
Transformer 擅长处理长序列数据,比如文字。这使它们成为 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大语言模型内部的关键技术。这些模型可以生成意义通顺的长文本序列,并在数十个句子中保持一致性。
但视频不是由文字组成的。相反,视频被切割成块,以便像处理文字一样处理它们。OpenAI 提出的方法是在空间和时间两个维度上对视频进行切割。Sora 的首席研究员蒂姆·布鲁克斯(Tim Brooks)说:“这就像你有一摞所有的视频帧,然后从中切出小立方体。”
将扩散模型与 Transformer 结合带来了一些优势。由于 Transformer 专为处理序列数据而设计,它们有助于扩散模型在生成过程中保持帧与帧之间的一致性。这使得生成的视频中,物体不会莫名其妙地出现或消失。
此外,由于视频被切成了块,其尺寸和方向就不再重要。这意味着最新一波视频生成模型可以在广泛的示例视频上进行训练,从手机拍摄的短竖屏视频到宽银幕电影。训练数据的多样性使得视频生成技术远胜于两年前。这也意味着视频生成模型现在可以按要求生成各种格式的视频。

音频如何生成?
Veo 3 的一大进步是它可以生成带有音频的视频,从口型同步的对话到音效和背景噪音。这是视频生成模型的首创。Google DeepMind 首席执行官德米斯·哈萨比斯(Demis Hassabis)在今年的 Google I/O 大会上说:“我们正在走出视频生成的无声时代。”
这一技术的挑战在于找到一种方法来对齐视频和音频数据,以便扩散过程能同时处理两者。Google DeepMind 的突破在于一种新方法,它将音频和视频压缩成扩散模型内部的一块单一数据。当 Veo 3 生成视频时,其扩散模型通过同步过程同时产生音频和视频,确保声音和图像是对齐的。

大语言模型也是这样工作的吗?
至少目前还不是。扩散模型最常用于生成图像、视频和音频。用于生成文本(包括计算机代码)的大语言模型是使用 Transformer 构建的,但其界限正在变得模糊。我们已经看到 Transformer 正在与扩散模型结合以生成视频。今年夏天,Google DeepMind 透露,通过使用扩散模型而非 Transformer 来生成文本,他们正在构建一个实验性的大语言模型。
这里情况开始变得令人困惑:虽然视频生成(使用扩散模型)消耗大量能源,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型代替 Transformer 来生成文本,Google DeepMind 的新大语言模型可能比现有模型效率高得多。在不久的将来,预计我们会看到更多基于扩散模型的成果。
https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/
相关攻略
每年五月的Display Week盛会,堪称全球显示技术领域的风向标与竞技场。今年在洛杉矶,各大厂商纷纷亮出最新成果,而华星光电带来的一款“微缩”显示屏,成为了全场瞩目的焦点。 这款显示屏的尺寸仅为0 28英寸,小巧到足以无缝集成于任何追求极致轻薄的AR智能眼镜镜腿或镜框之中。其最令人惊叹之处在于像
泰坦军团 G27T6T 显示器上架:三星 QD-OLED 2K 360Hz 面板,国补价 3298 5 元 最近,显示器市场又迎来一款值得关注的新品。泰坦军团的 G27T6T 显示器已在京东正式开售,核心卖点很明确:搭载了一块 26 5 英寸的三星 QD-OLED 面板,分辨率达到 2K,刷新率更是
构建自主可控的专利体系,掌握国际竞争主动权 作者 | 徐长卿 编辑丨高远山 来源 | 野马财经 你是否遇到过这样的烦恼:手机或手表屏幕不小心磕碰了一下,起初只是一个小点,随后黑斑却像墨水滴入清水般逐渐扩散开来,最终导致整块屏幕失灵?这个困扰用户多年的问题,其根源深植于OLED制造中一道名为精细金属掩
一加新品前瞻:天玑9500新机与影像旗舰在路上 最近数码圈又热闹起来了。综合各方消息来看,一加在接下来的几个月里,准备了好几款新品要和大家见面。 这不,知名爆料博主@数码闲聊站 又带来了一份新机情报。据称,这款新设备将搭载一块6 78英寸的1 5K分辨率屏幕,关键是刷新率直接拉到了165Hz,并且采
快科技4月6日消息,据博主 "智慧皮卡丘 "爆料,小米18系列将全系标配2亿像素长焦,影像能力大幅升级。尤其对于标准版来说,这还是第一次用上潜望长焦,补齐了远摄能力的最大短板,现在真正让小屏机也成为水桶
热门专题
热门推荐
欧易OKX交易所注册需通过官方渠道下载APP,完成手机号或邮箱注册并设置密码。身份认证要求用户提交身份证件照片及人脸识别信息,以符合安全合规要求。整个过程旨在保障账户安全与交易合法性。
币安官方App下载与安装全指南 对于希望随时随地进入加密市场的朋友来说,一个安全可靠的交易平台App是必不可少的工具。币安,作为全球领先的加密货币交易平台,其官方应用程序集成了现货、合约等多种交易功能,是管理数字资产的得力助手。今天,我们就来详细拆解一下如何获取并安装这款官方App,确保您每一步都安
欢迎来到币安:2025年官方入口与安全使用全指南 在加密货币世界,选择一个可靠、功能全面的交易平台是第一步。币安,作为全球领先的数字资产交易平台,以其丰富的资产选择、强大的交易引擎和持续优化的用户体验,成为了众多投资者的首选。今天这份指南,将为你清晰呈现2025年币安官方网站的最新入口,并手把手带你
币安(Binance)移动应用:官方下载与使用全指南 在数字资产交易领域,币安(Binance)无疑是全球领先的平台之一。其推出的移动应用,将丰富的交易与管理功能浓缩于方寸屏幕之间,让用户能够随时随地掌控自己的资产。接下来,这份指南将为您详细解析如何安全、顺利地完成官方应用的下载、安装与基础设置,文
Web3与加密货币世界深度解析:从入门到精通 随着区块链技术的不断成熟与普及,一个被称为“Web3”的全新数字时代正在加速到来。这个以去中心化为核心理念的生态系统,正深刻改变着我们对价值、所有权和信任的认知。对于广大投资者和科技爱好者而言,理解这个常被称为“币圈”的领域,不仅是把握前沿趋势的关键,更





