Gemini Omni多模态模型发布 AI视频生成功能详解

首页

AI资讯

热心网友

转载

2026-05-21

去年，Nano Banana将Gemini的智能引入图像生成与编辑领域，帮助数百万用户修复老照片、从草图出发进行创作，以及以前所未有的方式将创意可视化。从最初设计起，Gemini就以原生多模态为核心构建，如今我们迈出了下一步。

Gemini Omni正式发布：多模态输入生成高质量视频

现在，我们正式推出Gemini Omni——这标志着Gemini的推理能力与内容创作能力实现了全面融合。作为全新的模型，Omni能够接受任意形式的输入并生成任意内容，目前率先支持的是视频生成。这意味着，用户可以将图像、音频、视频和文字任意组合作为输入，生成基于Gemini真实世界知识的高质量视频，甚至可以通过对话的方式轻松编辑视频内容。

从今天起，Omni家族的首款模型——Gemini Omni Flash，已正式向Gemini应用、Google Flow以及YouTube Shorts的用户推出。未来，Omni还将陆续支持图像和音频等更多输出形式。那么，这个新模型究竟有哪些过人之处？

通过对话编辑视频

Gemini Omni让视频编辑变得前所未有的直观——你只需要用自然语言描述你的想法。它的强大之处在于，每一条指令都能在上一条的基础上延续，确保角色形象保持一致，物理规律符合逻辑，场景也能记住此前发生的一切。

你可以改变画面中的世界，无论是微调某个细节，还是全面重塑整个场景。原始视频在这里成为了新创作的起点，让你能拍摄到现实中根本无法实现的画面。

比如，你可以给出这样的提示：“将雕塑变成由泡泡构成的形态。” 模型就能理解并执行。

它还能重新编排动作。拿到一段你拍摄的视频，只需告诉Omni你想改变什么。无论是编辑动作内容、加入新角色或物体，还是将某个平凡的瞬间变成令人意想不到的场景，都能轻松实现。

来看几个例子：

提示词：“当人触碰镜子时，让镜子像液体一样产生美丽的涟漪，同时人的手臂变成反光的镜面材质。”

提示词：“调暗房间灯光。将一个黑白棋盘格房间放置在一个漂浮于手部上方的玻璃球内，球内包含同一只手持球的递归影像，形成无限递归的房间效果。镜头缓缓推向玻璃球，形成循环视频。”

提示词：“公寓的灯光随着音乐的节拍依次亮起。”

更值得一提的是，你可以在多轮对话中持续对视频进行精细调整。无论是修改环境、角度、风格还是具体细节，模型始终不会丢失原始场景的脉络和一致性。

例如，从一段“小提琴手演奏乐曲的视频”开始，你可以依次要求：“将小提琴手传送到图像所在的环境中。” -> “让小提琴消失不见。” -> “将摄像机角度切换到小提琴手肩膀后方的视角。” Omni能够连贯地理解并执行这一系列指令。

融合Gemini世界知识，让创意真正落地

Gemini Omni的厉害之处，不仅在于它能构建看起来真实的场景，更在于它能推断接下来应该发生什么。它将对于物理规律的直觉理解，与Gemini在历史、科学和文化背景方面的庞大知识库相结合，从而在照片级的真实感与有意义的故事叙述之间，架起了一座桥梁。

首先，它能创作出物理效果更精准的视觉内容。Omni对重力、动能和流体动力学等物理力有着更强的直觉理解，这让它生成的场景动态更加逼真可信。例如，根据提示词“一个弹珠在连锁反应式轨道上快速滚动，连续流畅的拍摄镜头”，它就能生成符合物理规律的流畅动画。

其次，它实现了知识与创造力的深度融合。Omni借助Gemini的知识储备，以远超简单模式匹配的方式，将语言、图像与深层的意义有机连接起来。例如，一个复杂的提示要求视频展示26个字母，每个字母对应一个不寻常的物品（如C对应水豚、D对应迪斯科球），并且要快速切换、配有特定样式的字幕条和平静的音乐。Omni不仅能理解每个字母对应的非常规物品，还能将它们流畅地组织成一个有节奏感的视觉作品。

最后，它让复杂的创意得以可视化呈现。Omni能够根据简短的提示词，生成引人入胜的说明性视频，将抽象或复杂的概念拆解为直观、易懂的视觉内容。比如，生成一个“关于蛋白质折叠的粘土动画解说视频，所有内容均由粘土制成，采用定格动画形式，且内容准确”，这对它来说并非难事。

支持任意输入组合生成视频

Omni的灵活性还体现在它对输入素材的包容性上。你可以随意引用各种参考素材。

无论是图像、文本、视频还是音频（目前音频参考仅支持语音输入，其他类型将于近期推出），Omni都能将它们整合为统一、连贯的视频输出。例如，你可以要求它“根据一张图片生成动态科幻电影风格视频，画面元素的闪烁效果参照另一段视频，并与提供的音频音乐节拍同步”。

这意味着你可以从已有的素材出发进行创作。利用输入的角色、场景或草图图像，你可以按照自己的设想进行天马行空的二次创作。比如，“将画作转化为写实画面，仅以绘图作为动作参考”，或者“将输入视频中的姿势与动作，应用于另一张图像中提供的角色”。

此外，你还可以通过输入参考素材来定义视觉风格语言，或者直接用自然语言描述。Omni会融合所有输入参考，生成风格高度统一的视频片段。例如，“保持视频内容不变，为滑板添加向外迸发的动画运动特效”，或者将一段视频中鲸鱼游动的动作，应用于一种流动的反光材质，形成独特的艺术效果。

使用专属数字分身创作视频

在推进技术的同时，如何负责任地发展AI始终是重中之重。为此，我们制定了明确的政策以保护用户权益、规范AI工具的使用。

目前，用户可以通过“A vatar数字分身”功能，使用自己的声音来创作视频——该功能会创建一个你的数字版本，生成外观和声音都与你相似的视频。至于通过编辑视频来更改音频和语音的功能，我们仍在进行持续的测试和评估，以期找到以最负责任的方式向用户开放该能力的最佳路径。

在安全与透明度方面，所有通过Omni生成的视频均自动嵌入了我们不可感知的SynthID数字水印。用户可以通过Gemini应用、Chrome中的Gemini以及Google搜索，便捷地验证一段视频是否由Gemini Omni生成。这为我们帮助用户理解网络内容的创建与编辑方式，迈出了重要一步。

立即体验Gemini Omni

从即日起，Omni家族的首款模型Gemini Omni Flash已正式上线。全球范围内的Google AI Plus、Pro及Ultra订阅用户，现在就可以通过Gemini应用和Google Flow立即使用。从本周开始，YouTube Shorts和YouTube Create App的用户也可以免费体验这一功能。

而在未来数周内，我们还将通过API向开发者和企业客户开放该模型，让更广泛的生态能够利用这一强大的创作工具。

Q&A

Q1：Gemini Omni能生成哪些类型的视频？

A：Gemini Omni目前主要支持视频生成与编辑。用户可以将图像、音频、视频和文字以任意组合作为输入，来生成高质量视频。未来它将陆续支持图像和音频等更多输出形式。其能力覆盖多种任务，包括改变场景风格、调整物理效果、进行多轮对话精细编辑，以及从草图或参考图像出发创作视频等。

Q2：Gemini Omni Flash现在如何获取？是否需要付费？

A：Gemini Omni Flash即日起向全球的Google AI Plus、Pro和Ultra订阅用户开放，可通过Gemini应用和Google Flow使用。YouTube Shorts和YouTube Create App的用户从本周起可免费体验。未来数周内，开发者和企业客户也将能够通过API接入该模型。

Q3：Gemini Omni生成的视频如何防止被滥用？

A：所有由Gemini Omni生成的视频都会自动嵌入SynthID数字水印，这种水印对人眼不可见，但可通过技术手段进行识别。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索来验证视频是否为AI生成。此外，在权限控制上，Omni目前仅支持用户使用自己的声音创建数字分身视频；涉及更改他人音频和语音的功能，仍在以负责任的方式进行测试和评估，尚未开放。

来源:https://ai.zhiding.cn/2026/0521/3187785.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI搜索初创公司迎来爆发式增长下一篇：科研人员打造创纪录量子电路的方法与步骤详解