AI视频生成新纪元 Seedance 2.0迎来最强竞争对手

首页

热心网友

转载

2026-05-20

Gemini Omni的正式亮相，证实了此前业内的广泛预测。然而，它远不止是一个视频生成模型。根据谷歌的官方定义，这是一个能够处理任意模态输入、并生成任意模态输出的“全能型”基础模型，视频创作仅仅是其当前能力版图中的一个重要组成部分。

Seedance 2.0最强对手上线！这就是AI视频的“Nano Banana 时刻”

在发布会上，DeepMind首席执行官Demis Hassabis展示了多个令人印象深刻的演示案例。用户仅需上传一张个人照片，Omni就能智能地重构人物所处的背景环境，轻松切换多种艺术风格。简单地画一个圆圈，它能理解并生成一个深邃的黑洞；用文字描述“傍晚林间漫步”，它会渲染出氛围各异的场景。任何原始素材，在Omni的眼中都能成为构建全新视觉现实的创意画布。

其核心技术突破，在于将文本、视频、图像乃至交互式仿真，统一整合进一个连贯的生成框架中。具体而言，Omni深度融合了谷歌旗下几款最先进的生成式媒体模型，包括图像模型Nano Banana、视频生成模型Veo，以及用于模拟物理世界的Genie模型。

这意味着，当用户输入“制作一段关于蛋白质折叠过程的黏土动画解说”这样的指令时，模型输出的不再是枯燥的文字说明，而是直接包含α螺旋、β折叠等三维结构动态演示的科普教学视频。

提示词：claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate

消息发布后，立刻有技术爱好者将Omni与当前热门的视频生成模型Seedance 2.0进行了多维度对比，从画面生成质量、运动动态自然度到跨帧一致性进行了全面评估。

视频来源：X@TopviewAIhq

总体来看，Seedance 2.0在通用场景下表现依然稳健，而Gemini Omni则在视频编辑与物理模拟等特定领域展现出了更突出的能力。根据官方技术博客的阐述，Omni的核心优势目前主要集中在这两大方面。

动动嘴就能剪视频：AI视频编辑进入「自然对话」时代

除了自动生成教学视频，智能视频编辑是Omni主打的另一大核心应用场景。它支持用户上传自拍视频或任意影视素材，随后只需使用自然语言进行描述，就像与真人剪辑师沟通一样，即可对视频进行多轮精细化修改，调整视觉风格或添加特定元素。这套直观的交互逻辑，与之前Nano Banana在图片编辑上实现的“对话式修图”思路一脉相承。

在最新的演示案例中，这种能力的强大之处尤为明显。拍摄一段手触摸镜面的普通视频，只需对Omni说：“当手指触碰到镜子时，让镜面像水面一样泛起美丽的涟漪，同时将手臂的材质变为反光的金属。”

生成结果令人惊叹。原始视频中人物的动作和构图得到了完美保留，但镜面的物理属性和手臂的材质被精准且逼真地替换了。更关键的是其“多轮对话与迭代能力”，用户的每一个新指令都会基于上一次的生成结果继续优化，Gemini Omni会智能地保持人物特征、环境光照、物理效果及整体场景上下文的高度一致性。

不仅懂像素，更懂物理：生成式AI理解真实世界法则

对物理世界的精准模拟，则是Gemini Omni技术含金量最高的部分。谷歌表示，Omni在模拟动能、重力、材质碰撞等物理现象时实现了“质的飞跃”。这意味着，更为逼真的动态视频、符合物理规律的图像以及复杂的交互式仿真内容，现在都能通过简单的指令生成。

当要求模型生成“一颗弹珠在复杂连锁反应轨道上快速滚动”的视频时，Omni展现出了对重力加速度、动量传递和碰撞能量的精确理解。

另一个更复杂的案例是“字母表创意物品视频”。当提示模型展示26个英文字母，每个字母需对应一个非常规物体（例如A对应宇航服、C对应水豚、D对应迪斯科球）时，它的表现超越了简单的图文匹配。

提示词：Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table . All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.

Omni同时完美处理了字母与物体的语义对应、画面切换节奏、字幕呈现形式、特定帧率要求、背景音乐风格以及视频收尾方式。这背后，是模型深度理解语言指令、并将其与视觉元素及深层概念进行关联的复杂能力，而非进行浅层的图像关键词匹配。

目前，Gemini Omni Flash版本已同步集成至所有谷歌产品线，面向全球的Google AI Plus、Pro和Ultra订阅用户开放。用户可以通过Gemini独立应用和Google Flow工作流平台来调用它。在Gemini的网页端或移动端，只需选择“生成视频”功能即可体验Omni的强大能力。

Seedance 2.0最强对手上线！这就是AI视频的“Nano Banana 时刻”

Gemini平台提供了年轻时尚、电影蒙太奇、美式漫画、会说话的宠物、派对邀请函等共18种预设视频风格。以Pro级别账户为例，用户每日拥有3次视频生成机会。只需输入一段简单的提示词，例如“一位男性汽车博主，身着女装JK制服，梳着双马尾辫，站在一辆经典跑车前”，并选择“80年代MV”风格，就能快速获得一段风格鲜明的创意短片。

谷歌还宣布，YouTube Shorts和YouTube Create App的用户将从本周起免费获得部分相关能力；未来几周内，公司将通过API向广大开发者和企业客户开放Gemini Omni的调用权限。该模型能够将用户提供的图片、文字、视频片段和音频作为参考素材，智能地整合成一段连贯、高质量的多模态输出。

为了应对公众对AI生成内容伪造的担忧，谷歌特别强调，所有由Omni生成的视频都会嵌入肉眼不可见的SynthID数字水印，并且可以通过专用工具轻松验证其AI生成来源。针对真人肖像的使用，它还推出了可安全克隆用户外貌和声音的“数字Avatar”功能。

Seedance 2.0最强对手上线！这就是AI视频的“Nano Banana 时刻”

回顾AI视频生成技术的发展，谷歌曾凭借Nano Banana将Gemini的多模态能力成功拓展至图像生成与编辑领域。如今，Gemini Omni正将同一套“自然语言交互”的先进理念带入视频领域，并致力于打造视频创作领域的“Nano Banana式”颠覆时刻。

这对于广大视频内容创作者的直接影响，是视频制作门槛的又一次大幅降低：一段用手机随手拍摄的生活片段、一张风格参考图、甚至一段背景音乐，都可能成为可以“对话式”深度编辑的原始素材。而更深远的变革在于，当视频内容能够像文本一样被一句话持续修改和迭代时，整个内容生产的速度、真实性验证机制、版权界定标准乃至平台的内容治理规则，都将被共同推向一个全新的发展阶段。

来源:https://tech.ifeng.com/c/8tESuwrFZfb

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：如何制作微缩世界鸟瞰视角的可爱场景图下一篇：Trae配置ESLint与Prettier联动提升代码质量