谷歌Veo 4视频生成模型泄露详解9秒演示效果惊艳

首页

热心网友

转载

2026-05-18

就在谷歌I/O开发者大会即将开幕之际，一则关于其下一代AI视频模型（可能命名为Veo 4或Gemini Omni）的重磅信息提前泄露，迅速成为科技领域的热门话题。

此前，一段由AI生成的“教授”在黑板上流畅推导公式的视频，其逼真程度已经让全球网友惊叹不已，充分展现了AI视频生成技术的巨大潜力。

而最新的泄露信息表明，技术的边界远不止于此。据爆料，新一代模型能够生成包含完整多角度场景的视频，在确保角色、物体细节高度一致的前提下，实现不同透视视角之间的流畅切换。这不再是简单的镜头运动，而是具备了初步的“剪辑”思维。

与此同时，模型的音频同步能力也迎来了关键性升级。新版本原生支持生成与画面同步的对话、环境音效，甚至能根据视频情境自动匹配相应的背景音乐。据称，生成的视频片段长度可达9秒，分辨率为720p。

尽管在部分泄露示例中仍能看到一些连贯性上的细微瑕疵，但那些完全同步的多机位场景所展现出的表现力，已经足够令人印象深刻。

必须指出，如果此次泄露属实，其意义绝非简单的版本迭代。这更像是一场关于“叙事主导权”的底层革命。当AI开始学会从多个视角审视并构建同一个瞬间时，它的角色就已经从执行指令的“画师”，进化为了具备空间逻辑思维的“导演”。

爆料人Pankaj Kumar甚至推测，以谷歌的技术实力，本应能轻松生成15秒时长的视频，当前的限制可能更多是出于对算力效率的权衡。当然，目前所有信息均源于单一信源，最终的产品命名究竟是Veo 4还是Gemini Omni，仍需等待谷歌I/O大会的官方正式揭晓。

AI视频学会了「切镜头」

为什么“多机位”这一功能点能引发如此巨大的行业震动？让我们将时间拉回到一年前。

当Sora横空出世时，业界惊叹于“AI能拍摄60秒电影了”。但仔细观察便会发现一个核心问题：那60秒的视频，镜头是连续不间断的。无论是平滑的滑动还是推拉摇移，本质上都属于“一个长镜头”。Runway Gen-4等同期的AI视频生成产品也面临相似的局限——它们生成的视频是单一虚拟摄影机的连续运动轨迹，缺乏真正的“镜头剪切”。

“切镜头”为何如此困难？因为它要求AI模型在同一时间点、对同一场景和人物，从截然不同的视角进行二次生成，并且必须保证服装、道具、表情等所有视觉细节的绝对连贯。这相当于对物理一致性、空间一致性和时间一致性进行三重极限测试。过去一年，整个行业都在努力攻克这一难题，但始终未有实质性的公开突破。

在传统影视工业中，这项工作被称为“机位调度”，是导演的核心职责，而非摄影师。摄影师负责“画面是否好看”，导演则决定“这场戏如何剪辑才能让观众看懂并感到精彩”。多机位的本质，是将一个场景拆解为多个“叙事单元”。

如果Pankaj Kumar的爆料成真，意味着Veo 4已将“导演”的思维逻辑压缩进了模型权重之中。用户的指令将从“让AI拍摄一个镜头”升级为“让AI拍摄一场戏”。这是一个量级上的跃迁。过去的AI视频工具，更像是“短视频素材生成器”，用于制作片头、转场或背景画面。而现在，它有望进化为真正的“叙事生产工具”。当然，这一切的前提是泄露信息属实，且I/O大会的现场演示能够顺利实现。

同步音频补齐了最后一块拼图

爆料中被反复强调的第二个重点，是音频能力的升级。具体而言，Veo 4能够原生生成与画面同步的对话与环境音效，并会根据画面情境自动匹配相应的背景音乐。

需要澄清的是，原生音频生成并非Veo 4的首创。去年五月Veo 3发布时，“原生音频”就是其核心亮点之一，模型能同步生成脚步声、对话和环境噪音，无需后期手动对齐。这一特性在当时将其与众多竞争对手区分开来。

然而，Veo 3在音频方面仍存在两大遗憾。首先是音质本身。今年5月初的早期用户实测中，Reddit社区反馈积极，但具体提升程度尚未可知，预计将比Veo 3时代明显的“AI配音感”有显著进步。

其次是背景音乐。Veo 3主要聚焦于环境音和对话，情境化的配乐基本不在其能力范围内。而Kumar的爆料明确提到了“原生生成情境化背景音乐”。如果这一功能成功落地，意味着AI生成的视频将从此自带契合情绪氛围的BGM。

将多机位视角与原生情境化BGM结合起来看，谷歌的战略轮廓逐渐清晰：它的竞争焦点，已不再是“谁的画面更细腻”或“谁的物理模拟更逼真”，而是“谁能直接输出一条接近成片质量的视频内容”。镜头会智能切换，声音严丝合缝，背景音乐自动到位——至此，距离生成一条完整的短片，只差一个优质的剧本了。

Sora已死，谷歌选这个时间点摊牌

Veo 4信息泄露的时间点，精准地卡在了Sora倒下的节点之上。4月26日，OpenAI的Sora App正式停止服务。

回顾Sora的陨落，堪称一部完整的商业悲剧。其推理成本据称高达每日100万至1500万美元，远超文本和图像生成，且整个生命周期都未能将单位成本有效压低。用户留存数据同样惨淡：峰值月活曾达100万，停服前已跌破50万，30天留存率不到8%。更关键的是盈利能力缺失，整个生命周期内App内总收入约210万美元，甚至无法覆盖一天的算力开销。3月24日，Sora官方账号发布告别声明，其API也定于9月24日彻底关闭。