谷歌Veo 4视频生成模型泄露详解9秒演示效果惊艳
就在谷歌I/O开发者大会即将开幕之际,一则关于其下一代AI视频模型(可能命名为Veo 4或Gemini Omni)的重磅信息提前泄露,迅速成为科技领域的热门话题。
此前,一段由AI生成的“教授”在黑板上流畅推导公式的视频,其逼真程度已经让全球网友惊叹不已,充分展现了AI视频生成技术的巨大潜力。

而最新的泄露信息表明,技术的边界远不止于此。据爆料,新一代模型能够生成包含完整多角度场景的视频,在确保角色、物体细节高度一致的前提下,实现不同透视视角之间的流畅切换。这不再是简单的镜头运动,而是具备了初步的“剪辑”思维。

与此同时,模型的音频同步能力也迎来了关键性升级。新版本原生支持生成与画面同步的对话、环境音效,甚至能根据视频情境自动匹配相应的背景音乐。据称,生成的视频片段长度可达9秒,分辨率为720p。

尽管在部分泄露示例中仍能看到一些连贯性上的细微瑕疵,但那些完全同步的多机位场景所展现出的表现力,已经足够令人印象深刻。
必须指出,如果此次泄露属实,其意义绝非简单的版本迭代。这更像是一场关于“叙事主导权”的底层革命。当AI开始学会从多个视角审视并构建同一个瞬间时,它的角色就已经从执行指令的“画师”,进化为了具备空间逻辑思维的“导演”。
爆料人Pankaj Kumar甚至推测,以谷歌的技术实力,本应能轻松生成15秒时长的视频,当前的限制可能更多是出于对算力效率的权衡。当然,目前所有信息均源于单一信源,最终的产品命名究竟是Veo 4还是Gemini Omni,仍需等待谷歌I/O大会的官方正式揭晓。


AI视频学会了「切镜头」
为什么“多机位”这一功能点能引发如此巨大的行业震动?让我们将时间拉回到一年前。
当Sora横空出世时,业界惊叹于“AI能拍摄60秒电影了”。但仔细观察便会发现一个核心问题:那60秒的视频,镜头是连续不间断的。无论是平滑的滑动还是推拉摇移,本质上都属于“一个长镜头”。Runway Gen-4等同期的AI视频生成产品也面临相似的局限——它们生成的视频是单一虚拟摄影机的连续运动轨迹,缺乏真正的“镜头剪切”。
“切镜头”为何如此困难?因为它要求AI模型在同一时间点、对同一场景和人物,从截然不同的视角进行二次生成,并且必须保证服装、道具、表情等所有视觉细节的绝对连贯。这相当于对物理一致性、空间一致性和时间一致性进行三重极限测试。过去一年,整个行业都在努力攻克这一难题,但始终未有实质性的公开突破。
在传统影视工业中,这项工作被称为“机位调度”,是导演的核心职责,而非摄影师。摄影师负责“画面是否好看”,导演则决定“这场戏如何剪辑才能让观众看懂并感到精彩”。多机位的本质,是将一个场景拆解为多个“叙事单元”。

如果Pankaj Kumar的爆料成真,意味着Veo 4已将“导演”的思维逻辑压缩进了模型权重之中。用户的指令将从“让AI拍摄一个镜头”升级为“让AI拍摄一场戏”。这是一个量级上的跃迁。过去的AI视频工具,更像是“短视频素材生成器”,用于制作片头、转场或背景画面。而现在,它有望进化为真正的“叙事生产工具”。当然,这一切的前提是泄露信息属实,且I/O大会的现场演示能够顺利实现。
同步音频补齐了最后一块拼图
爆料中被反复强调的第二个重点,是音频能力的升级。具体而言,Veo 4能够原生生成与画面同步的对话与环境音效,并会根据画面情境自动匹配相应的背景音乐。
需要澄清的是,原生音频生成并非Veo 4的首创。去年五月Veo 3发布时,“原生音频”就是其核心亮点之一,模型能同步生成脚步声、对话和环境噪音,无需后期手动对齐。这一特性在当时将其与众多竞争对手区分开来。

然而,Veo 3在音频方面仍存在两大遗憾。首先是音质本身。今年5月初的早期用户实测中,Reddit社区反馈积极,但具体提升程度尚未可知,预计将比Veo 3时代明显的“AI配音感”有显著进步。

其次是背景音乐。Veo 3主要聚焦于环境音和对话,情境化的配乐基本不在其能力范围内。而Kumar的爆料明确提到了“原生生成情境化背景音乐”。如果这一功能成功落地,意味着AI生成的视频将从此自带契合情绪氛围的BGM。
将多机位视角与原生情境化BGM结合起来看,谷歌的战略轮廓逐渐清晰:它的竞争焦点,已不再是“谁的画面更细腻”或“谁的物理模拟更逼真”,而是“谁能直接输出一条接近成片质量的视频内容”。镜头会智能切换,声音严丝合缝,背景音乐自动到位——至此,距离生成一条完整的短片,只差一个优质的剧本了。
Sora已死,谷歌选这个时间点摊牌
Veo 4信息泄露的时间点,精准地卡在了Sora倒下的节点之上。4月26日,OpenAI的Sora App正式停止服务。

回顾Sora的陨落,堪称一部完整的商业悲剧。其推理成本据称高达每日100万至1500万美元,远超文本和图像生成,且整个生命周期都未能将单位成本有效压低。用户留存数据同样惨淡:峰值月活曾达100万,停服前已跌破50万,30天留存率不到8%。更关键的是盈利能力缺失,整个生命周期内App内总收入约210万美元,甚至无法覆盖一天的算力开销。3月24日,Sora官方账号发布告别声明,其API也定于9月24日彻底关闭。

商业层面的巨大差距已由冰冷的数据揭示。而技术上的代差,则通过这次泄露被摆上了台面。在OpenAI退出的位置上,谷歌选择了一个极具象征意义的时机高调入场,意图重新定义AI视频生成的竞争格局。
I/O当天,谷歌还会亮哪些牌
需要明确的是,Omni可能只是这场泄露风暴的一角。同一波泄露信息显示,谷歌多款即将发布的Gemini模型被意外推送至生产环境API,包括Gemini 3 Flash、3.1全系列(Pro、Flash Image、Lite、TTS),以及专注于高保真音频生成的Lyria 3 Pro。

最重磅的提示藏在一份内部文档中:“Omni模型将针对所有核心模型推出专门的Agent版本。”这句话的潜台词再直白不过:谷歌计划在I/O大会上,将视频生成、音频生成与智能体(Agent)框架打包展示,形成一个完整的、面向未来的AI内容创作解决方案。

一年前,谷歌CEO桑达尔·皮查伊曾承诺要将Gemini“装进每一个谷歌产品里”。这一次的I/O开发者大会,我们或许将亲眼目睹这句承诺以何种震撼人心的方式兑现,并开启AI内容生成的新篇章。
相关攻略
卡尔达诺(Cardano)分析师预测:未来数周或将迎来150%的“强势牛市反弹” 关键要点: ADA价格形成看涨旗形并完成突破,预示未来可能实现100%至150%的上涨。超过150亿枚ADA在过去一年中未发生转移,反映出长期持有者信心达到历史高点。 最近的市场动态,透露出一些相当积极的信号。一方面,
在拉斯维加斯举行的Google Cloud Next大会上,谷歌高级副总裁Amin Vahdat揭晓了其AI芯片战略的重大演进:首次明确区分了训练与推理两大核心任务,并同步推出了专为各自优化的TPU 8t与TPU 8i芯片。这标志着谷歌TPU产品线进入了精细化分工的新纪元。 “随着AI智能体(Age
关于谷歌下一代桌面操作系统“Aluminium OS”的传闻,近日获得了新的有力证据。据外媒Android Authority报道,其在最新系统文件中发现了四张被标记为“桌面专属”的专属壁纸,这些设计元素明确指向为大屏幕设备优化,进一步证实了谷歌桌面系统的开发进展。 这四款壁纸的命名富有深意,分别为
最近科技圈里有个事儿,闹得挺大。5月4日,一位在隐私领域颇有声望的专家——人称“隐私先生”的瑞典计算机科学家Alexander Hanff——发布了一份报告,直指谷歌Chrome浏览器存在一个相当出格的行为:在用户完全不知情、未同意的情况下,它竟然向符合条件的设备静默安装了一个体积约4GB的Gemi
5月11日,关于谷歌下一代旗舰手机Pixel 11系列的一则爆料引发热议:其内存配置可能不增反降。具体来看,标准版Pixel 11或许会从上一代的12GB起步回退至8GB;而定位更高的Pixel 11 Pro、Pro XL以及Pro Fold折叠屏机型,也可能不再延续Pro系列16GB起步的传统,转
热门专题
热门推荐
机器人行业迎来里程碑式突破。以视频生成模型Vidu著称的生数科技,正式发布了名为Motubrain的“世界动作模型”。这并非一次普通迭代,而是被定位为机器人的“物理大脑”,其核心目标在于:用一个统一的通用模型,彻底取代以往依赖多个专用系统拼凑而成的复杂架构。 正如其“一个大脑,无限可能”的口号所揭示
xAI正式进军AI编程智能体领域,于近日发布了专为软件工程与复杂编程任务设计的Grok Build。 简单来说,Grok Build是一款能在终端里直接跑起来的AI编程助手。它被定位为一个具备智能体能力的命令行工具,开发者用自然语言告诉它要做什么,它就能生成代码,甚至帮你搞定一系列编程和自动化任务。
近日,谷歌对其搜索引擎的核心规则进行了重要更新,此次调整直指当前备受关注的AI搜索领域。具体而言,谷歌在其垃圾内容政策中新增了明确条款,正式将“操纵AI搜索结果”的行为列为违规操作,划定了新的质量红线。 根据权威行业媒体Search Engine Land的报道,本次谷歌算法更新的核心在于,将任何企
硅谷的科技巨头们或许曾以为,自己已经远离了AI数据中心带来的电力压力——毕竟,高昂的地价和电费早就把大型数据中心项目“赶”到了别处。但现实总是出人意料,这场能源危机的涟漪,正悄然涌向他们心爱的度假后院。 没错,说的就是太浩湖。这个湾区精英们钟爱的避世天堂,如今正站在一场电力风暴的边缘。距离它必须找到
这项由高通AI研究院(Qualcomm AI Research)主导的创新研究于2026年5月正式发布,论文预印本编号为arXiv:2605 07721。 研究背景:当AI越想越费内存,我们该怎么办 设想一下,手机导航应用会在出发前规划好整条路线,而一位真正智慧的向导则会边走边思考,遇到路障时灵活应





