首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
揭秘AI视频生成全过程:从原理到应用的深度解析

揭秘AI视频生成全过程:从原理到应用的深度解析

热心网友
51
转载
2026-01-12


(来源:麻省理工科技评论)

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。

对于视频生成领域来说,2025 年是重要的一年。在过去的一年里,OpenAI 公开了 Sora,Google DeepMind 推出了 Veo 3,视频初创公司 Runway 发布了 Gen-4。所有这些模型生成的视频片段,几乎无法与真实拍摄的素材或 CGI 动画区分开来。今年,Netflix 还在其剧集《永恒族》(The Eternaut)中首次使用了 AI 视觉特效。

当然,你在演示视频中看到的片段都是经过精心挑选的,旨在展示公司模型处于最佳状态时的表现。但随着这项技术掌握在比以往任何时候都多的用户手中——Sora 和 Veo 3 现已在 ChatGPT 和 Gemini 应用中向付费订阅者开放——即便是业余的影视爱好者,现在也能通过 AI 制作出色的作品。

负面影响在于,创作者正面临大量低质量 AI 内容(AI slop)的竞争,社交媒体上也充斥着虚假的新闻片段。此外,视频生成消耗的能源巨大,是文本或图像生成的许多倍。

既然 AI 生成的视频无处不在,让我们花点时间来探讨一下其背后的技术原理。



如何生成一个视频?

我们假设你只是一名普通用户。现在有一系列高端工具允许专业视频制作者将视频生成模型整合到他们的工作流程中,但大多数人会通过应用程序或 使用这项技术。流程你应该很熟悉:“嘿,Gemini,给我做一个独角兽吃意大利面的视频,然后让它的角像火箭一样发射升空。”你得到的结果可能好坏参半。通常你需要要求模型重新生成几次甚至十次,才能得到与你预期大致相符的内容。

那么,这一切的底层逻辑是什么?为什么结果会好坏参半?为什么它消耗这么多能源?最新一波视频生成模型被称为“潜在扩散 Transformer”(latent diffusion transformers)。没错,这个名字读起来很拗口。让我们依次拆解每个部分,从“扩散”开始。



什么是扩散模型?

想象一下,取一张图像,并在上面随机散布像素点。拿着这张布满噪点的图像,再次散布像素,然后重复这一过程。重复足够多次后,最初的图像就会变成一团随机的像素混乱,就像老式电视机上的雪花噪点。

扩散模型是一种神经网络,经过训练可以逆转这一过程,将随机的噪点转化为图像。在训练过程中,它会看到处于不同像素化阶段的数百万张图像。它学习这些图像在每次添加新像素时的变化规律,从而学习如何撤销这些变化。

结果就是,当你要求扩散模型生成图像时,它会从一团随机的像素混乱开始,一步步将这一混乱转化为与其训练集中的图像大致相似的图像。

但你不想要随便一张图像——你想要你指定的图像,通常通过文本提示词来描述。因此,扩散模型会与第二个模型配对。这个辅助模型通常是一个经过训练、能将图像与文本描述匹配的大语言模型(LLM)。它指导清理过程的每一步,推动扩散模型生成大语言模型认为与提示词匹配度高的图像。

另外,这个大语言模型并不是凭空建立文本与图像之间的联系。如今大多数文本生成图像和文本生成视频的模型,都是在包含数十亿对文本与图像或文本与视频的大型数据集上训练的。这些数据是从互联网上抓取的(这种做法让许多创作者非常不满)。这意味着你从这些模型中得到的内容,是网络世界表现形式的浓缩,其中也包含了偏见(以及色情内容)带来的扭曲。

我们要理解扩散模型如何处理图像很容易。但这该技术也可以用于多种类型的数据,包括音频和视频。为了生成电影片段,扩散模型必须清理一系列图像,而不仅仅是一张图像——即视频的连续帧。



什么是潜在扩散模型?

所有这些都需要巨大的算力(也就是能源)。这就是为什么大多数用于视频生成的扩散模型使用一种称为“潜在扩散”(latent diffusion)的技术。模型不处理每个视频帧中数百万像素的原始数据,而是在所谓的“潜在空间”中工作。在这个空间里,视频帧(和文本提示词)被压缩成数学代码。这些代码只捕捉数据的基本特征,并丢弃其余部分。

类似的原理发生在你通过互联网流式传输视频时:视频以压缩格式从服务器发送到你的屏幕,以便更快传输。到达后,你的电脑或电视会将其转换回可观看的视频。

因此,最后一步是对潜在扩散过程产生的结果进行解压。一旦随机噪点的压缩帧被转化为压缩后的视频帧(且大语言模型向导认为这与用户的提示词匹配良好),压缩视频就会被转换成你可以观看的内容。

通过使用潜在扩散技术,扩散过程的工作方式与处理图像时大致相同。区别在于,像素化的视频帧现在是这些帧的数学编码,而不是帧本身。这使得潜在扩散比典型的扩散模型效率高得多。(即便如此,视频生成消耗的能源仍然比图像或文本生成多。涉及的计算量依然惊人。)



什么是潜在扩散 Transformer?

还有一个谜题尚未解开,那就是如何确保扩散过程产生一系列连贯的帧,保持物体和光线等元素在帧与帧之间的一致性。OpenAI 在开发 Sora 时,通过将其扩散模型与另一种称为 Transformer 的模型相结合,解决了这个问题。这已成为生成式视频的标准做法。

Transformer 擅长处理长序列数据,比如文字。这使它们成为 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大语言模型内部的关键技术。这些模型可以生成意义通顺的长文本序列,并在数十个句子中保持一致性。

但视频不是由文字组成的。相反,视频被切割成块,以便像处理文字一样处理它们。OpenAI 提出的方法是在空间和时间两个维度上对视频进行切割。Sora 的首席研究员蒂姆·布鲁克斯(Tim Brooks)说:“这就像你有一摞所有的视频帧,然后从中切出小立方体。”

将扩散模型与 Transformer 结合带来了一些优势。由于 Transformer 专为处理序列数据而设计,它们有助于扩散模型在生成过程中保持帧与帧之间的一致性。这使得生成的视频中,物体不会莫名其妙地出现或消失。

此外,由于视频被切成了块,其尺寸和方向就不再重要。这意味着最新一波视频生成模型可以在广泛的示例视频上进行训练,从手机拍摄的短竖屏视频到宽银幕电影。训练数据的多样性使得视频生成技术远胜于两年前。这也意味着视频生成模型现在可以按要求生成各种格式的视频。



音频如何生成?

Veo 3 的一大进步是它可以生成带有音频的视频,从口型同步的对话到音效和背景噪音。这是视频生成模型的首创。Google DeepMind 首席执行官德米斯·哈萨比斯(Demis Hassabis)在今年的 Google I/O 大会上说:“我们正在走出视频生成的无声时代。”

这一技术的挑战在于找到一种方法来对齐视频和音频数据,以便扩散过程能同时处理两者。Google DeepMind 的突破在于一种新方法,它将音频和视频压缩成扩散模型内部的一块单一数据。当 Veo 3 生成视频时,其扩散模型通过同步过程同时产生音频和视频,确保声音和图像是对齐的。



大语言模型也是这样工作的吗?

至少目前还不是。扩散模型最常用于生成图像、视频和音频。用于生成文本(包括计算机代码)的大语言模型是使用 Transformer 构建的,但其界限正在变得模糊。我们已经看到 Transformer 正在与扩散模型结合以生成视频。今年夏天,Google DeepMind 透露,通过使用扩散模型而非 Transformer 来生成文本,他们正在构建一个实验性的大语言模型。

这里情况开始变得令人困惑:虽然视频生成(使用扩散模型)消耗大量能源,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型代替 Transformer 来生成文本,Google DeepMind 的新大语言模型可能比现有模型效率高得多。在不久的将来,预计我们会看到更多基于扩散模型的成果。


https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

来源:https://www.163.com/dy/article/KJ3BS91H05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

小米18 Ultra再曝光:三摄2亿像素与LOFIC长焦锁定影像机皇
网络安全
小米18 Ultra再曝光:三摄2亿像素与LOFIC长焦锁定影像机皇

说实在的,这几年的手机影像提升幅度很夸张,从一英寸主摄,到双潜望长焦,再到外接增距镜,厂商们一直在探索手机摄影的边界。现在小米18 Ultra的超前瞻爆料可能要把这个边界推到一个新的高度,那就是三颗

热心网友
03.28
小米18 Ultra影像升级:LOFIC长焦与三颗2亿像素镜头解析
科技数码
小米18 Ultra影像升级:LOFIC长焦与三颗2亿像素镜头解析

IT之家 3 月 28 日消息,博主 @数码闲聊站 今天在微博发文称:一个超前瞻,下一代超大杯 " 可能 " 会有 LOFIC 长焦, " 可能 " 会出现双 LOFIC 影像, " 可能 " 会有 3

热心网友
03.28
华为Pura X2领衔:全球首款阔比例大折叠手机革新亮相
网络安全
华为Pura X2领衔:全球首款阔比例大折叠手机革新亮相

快科技3月28日消息,据博主定焦数码爆料,华为将在下月发布的全新Pura X机型将改名,目前还不确定全新命名方式,但不会在延续之前的命名叫做Pura X2了。这款新机将成为全球首款横向大尺寸扩折叠手

热心网友
03.28
OPPO K15 Pro设计曝光:4月1日发布,采用全新美学理念
网络安全
OPPO K15 Pro设计曝光:4月1日发布,采用全新美学理念

目前,OPPO已经正式宣布K15 Pro 系列新机将于4月1日发布。与此同时,新机发布前的预热剧透也已经正式开始。今天,OPPO最新公布了K15 Pro 系列的外观设计,并带来了赛博光翼,起源灰,光

热心网友
03.27
OPPO K15 Pro官网上线:12+512GB顶配版 4月1日发布
网络安全
OPPO K15 Pro官网上线:12+512GB顶配版 4月1日发布

IT之家 3 月 27 日消息,OPPO K15 Pro 系列手机已官宣将于 4 月 1 日发布。IT之家注意到,OPPO K15 Pro 手机已现身 OPPO 正式,公布了部分配色、设计、版本等信

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

明日方舟终末地主线后开启小陈剧情攻略
游戏攻略
明日方舟终末地主线后开启小陈剧情攻略

在明日方舟终末地中,小陈剧情的开启需要满足一定条件并完成特定任务。首先,要确保玩家已经达到一定的游戏进度。这包括推进主线剧情到一定阶段,解锁了相应的区域和功能。随着主线剧情的推进,

热心网友
03.28
逐玉与白日提灯对比解析:没有对比就没有伤害
娱乐
逐玉与白日提灯对比解析:没有对比就没有伤害

前言《逐玉》大结局落幕那晚,我盯着屏幕良久,胸口像压了块浸水的棉絮,沉闷得喘不过气。从首播时满怀热望地守在更新页面,到中期边看边叹气、反复暂停找逻辑漏洞,再到最后几集干脆调成倍速、只为“完成任务”式

热心网友
03.28
4月1日起俄罗斯拟禁汽油出口,全球油价或再迎上涨
业界动态
4月1日起俄罗斯拟禁汽油出口,全球油价或再迎上涨

3月28日消息 据新华社报道,俄罗斯政府日前宣布了一项重要的能源指令。俄副总理亚历山大·诺瓦克已指示能源部起草行政命令,计划从4月1日起全面禁止汽油出口。此举的核心目的是在中东战事引发全球能源市场动

热心网友
03.28
蓝海读书官方入口与在线阅读网址使用指南
电脑教程
蓝海读书官方入口与在线阅读网址使用指南

蓝海搜书最新可用网址是https: www lanhaizw com ,平台具备极简无广告界面、全球CDN加速、三类自适应阅读模式、四重语义检索、27个细分分类、跨设备同步及离线

热心网友
03.28
悟空浏览器网页正版入口在哪?下载与使用全指南
手机教程
悟空浏览器网页正版入口在哪?下载与使用全指南

在网络信息爆炸的时代,一款好用的浏览器能为我们带来便捷与丰富的体验。悟空浏览器网页版正式版入口,成为众多用户探索网络精彩的关键通道。悟空浏览器以其简洁界面和强大功能吸引着广大用户。

热心网友
03.28