Gemini Omni多模态模型发布 AI视频生成功能详解
去年,Nano Banana将Gemini的智能引入图像生成与编辑领域,帮助数百万用户修复老照片、从草图出发进行创作,以及以前所未有的方式将创意可视化。从最初设计起,Gemini就以原生多模态为核心构建,如今我们迈出了下一步。

现在,我们正式推出Gemini Omni——这标志着Gemini的推理能力与内容创作能力实现了全面融合。作为全新的模型,Omni能够接受任意形式的输入并生成任意内容,目前率先支持的是视频生成。这意味着,用户可以将图像、音频、视频和文字任意组合作为输入,生成基于Gemini真实世界知识的高质量视频,甚至可以通过对话的方式轻松编辑视频内容。
从今天起,Omni家族的首款模型——Gemini Omni Flash,已正式向Gemini应用、Google Flow以及YouTube Shorts的用户推出。未来,Omni还将陆续支持图像和音频等更多输出形式。那么,这个新模型究竟有哪些过人之处?
通过对话编辑视频
Gemini Omni让视频编辑变得前所未有的直观——你只需要用自然语言描述你的想法。它的强大之处在于,每一条指令都能在上一条的基础上延续,确保角色形象保持一致,物理规律符合逻辑,场景也能记住此前发生的一切。
你可以改变画面中的世界,无论是微调某个细节,还是全面重塑整个场景。原始视频在这里成为了新创作的起点,让你能拍摄到现实中根本无法实现的画面。
比如,你可以给出这样的提示:“将雕塑变成由泡泡构成的形态。” 模型就能理解并执行。
它还能重新编排动作。拿到一段你拍摄的视频,只需告诉Omni你想改变什么。无论是编辑动作内容、加入新角色或物体,还是将某个平凡的瞬间变成令人意想不到的场景,都能轻松实现。
来看几个例子:
提示词:“当人触碰镜子时,让镜子像液体一样产生美丽的涟漪,同时人的手臂变成反光的镜面材质。”
提示词:“调暗房间灯光。将一个黑白棋盘格房间放置在一个漂浮于手部上方的玻璃球内,球内包含同一只手持球的递归影像,形成无限递归的房间效果。镜头缓缓推向玻璃球,形成循环视频。”
提示词:“公寓的灯光随着音乐的节拍依次亮起。”
更值得一提的是,你可以在多轮对话中持续对视频进行精细调整。无论是修改环境、角度、风格还是具体细节,模型始终不会丢失原始场景的脉络和一致性。
例如,从一段“小提琴手演奏乐曲的视频”开始,你可以依次要求:“将小提琴手传送到图像所在的环境中。” -> “让小提琴消失不见。” -> “将摄像机角度切换到小提琴手肩膀后方的视角。” Omni能够连贯地理解并执行这一系列指令。
融合Gemini世界知识,让创意真正落地
Gemini Omni的厉害之处,不仅在于它能构建看起来真实的场景,更在于它能推断接下来应该发生什么。它将对于物理规律的直觉理解,与Gemini在历史、科学和文化背景方面的庞大知识库相结合,从而在照片级的真实感与有意义的故事叙述之间,架起了一座桥梁。
首先,它能创作出物理效果更精准的视觉内容。Omni对重力、动能和流体动力学等物理力有着更强的直觉理解,这让它生成的场景动态更加逼真可信。例如,根据提示词“一个弹珠在连锁反应式轨道上快速滚动,连续流畅的拍摄镜头”,它就能生成符合物理规律的流畅动画。
其次,它实现了知识与创造力的深度融合。Omni借助Gemini的知识储备,以远超简单模式匹配的方式,将语言、图像与深层的意义有机连接起来。例如,一个复杂的提示要求视频展示26个字母,每个字母对应一个不寻常的物品(如C对应水豚、D对应迪斯科球),并且要快速切换、配有特定样式的字幕条和平静的音乐。Omni不仅能理解每个字母对应的非常规物品,还能将它们流畅地组织成一个有节奏感的视觉作品。
最后,它让复杂的创意得以可视化呈现。Omni能够根据简短的提示词,生成引人入胜的说明性视频,将抽象或复杂的概念拆解为直观、易懂的视觉内容。比如,生成一个“关于蛋白质折叠的粘土动画解说视频,所有内容均由粘土制成,采用定格动画形式,且内容准确”,这对它来说并非难事。
支持任意输入组合生成视频
Omni的灵活性还体现在它对输入素材的包容性上。你可以随意引用各种参考素材。
无论是图像、文本、视频还是音频(目前音频参考仅支持语音输入,其他类型将于近期推出),Omni都能将它们整合为统一、连贯的视频输出。例如,你可以要求它“根据一张图片生成动态科幻电影风格视频,画面元素的闪烁效果参照另一段视频,并与提供的音频音乐节拍同步”。
这意味着你可以从已有的素材出发进行创作。利用输入的角色、场景或草图图像,你可以按照自己的设想进行天马行空的二次创作。比如,“将画作转化为写实画面,仅以绘图作为动作参考”,或者“将输入视频中的姿势与动作,应用于另一张图像中提供的角色”。
此外,你还可以通过输入参考素材来定义视觉风格语言,或者直接用自然语言描述。Omni会融合所有输入参考,生成风格高度统一的视频片段。例如,“保持视频内容不变,为滑板添加向外迸发的动画运动特效”,或者将一段视频中鲸鱼游动的动作,应用于一种流动的反光材质,形成独特的艺术效果。
使用专属数字分身创作视频
在推进技术的同时,如何负责任地发展AI始终是重中之重。为此,我们制定了明确的政策以保护用户权益、规范AI工具的使用。
目前,用户可以通过“A vatar数字分身”功能,使用自己的声音来创作视频——该功能会创建一个你的数字版本,生成外观和声音都与你相似的视频。至于通过编辑视频来更改音频和语音的功能,我们仍在进行持续的测试和评估,以期找到以最负责任的方式向用户开放该能力的最佳路径。
在安全与透明度方面,所有通过Omni生成的视频均自动嵌入了我们不可感知的SynthID数字水印。用户可以通过Gemini应用、Chrome中的Gemini以及Google搜索,便捷地验证一段视频是否由Gemini Omni生成。这为我们帮助用户理解网络内容的创建与编辑方式,迈出了重要一步。
立即体验Gemini Omni
从即日起,Omni家族的首款模型Gemini Omni Flash已正式上线。全球范围内的Google AI Plus、Pro及Ultra订阅用户,现在就可以通过Gemini应用和Google Flow立即使用。从本周开始,YouTube Shorts和YouTube Create App的用户也可以免费体验这一功能。
而在未来数周内,我们还将通过API向开发者和企业客户开放该模型,让更广泛的生态能够利用这一强大的创作工具。
Q&A
Q1:Gemini Omni能生成哪些类型的视频?
A:Gemini Omni目前主要支持视频生成与编辑。用户可以将图像、音频、视频和文字以任意组合作为输入,来生成高质量视频。未来它将陆续支持图像和音频等更多输出形式。其能力覆盖多种任务,包括改变场景风格、调整物理效果、进行多轮对话精细编辑,以及从草图或参考图像出发创作视频等。
Q2:Gemini Omni Flash现在如何获取?是否需要付费?
A:Gemini Omni Flash即日起向全球的Google AI Plus、Pro和Ultra订阅用户开放,可通过Gemini应用和Google Flow使用。YouTube Shorts和YouTube Create App的用户从本周起可免费体验。未来数周内,开发者和企业客户也将能够通过API接入该模型。
Q3:Gemini Omni生成的视频如何防止被滥用?
A:所有由Gemini Omni生成的视频都会自动嵌入SynthID数字水印,这种水印对人眼不可见,但可通过技术手段进行识别。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索来验证视频是否为AI生成。此外,在权限控制上,Omni目前仅支持用户使用自己的声音创建数字分身视频;涉及更改他人音频和语音的功能,仍在以负责任的方式进行测试和评估,尚未开放。
相关攻略
剪映国际版CapCut与谷歌Gemini达成合作,用户将能在Gemini应用内直接调用CapCut的编辑工具处理图片与视频。此举旨在整合AI生成与专业剪辑流程,让构思、生成到后期制作可在同一界面完成,提升创作效率。合作紧随谷歌I O大会发布新版Gemini模型之后,体现了双方在AI应用层推动工具融合、优化创作者体验的布局。
谷歌Gemini服务近日引入双层配额机制,包含短期刷新与每周总预算。免费用户配额耗尽将无法使用,付费用户则享有更高额度。此举旨在推动AI服务商业化,提升盈利能力。行业趋势显示,多家科技公司正收紧免费服务,标志着AI普惠服务早期阶段结束,进入更注重商业可持续性的新阶段。
剪映国际版CapCut宣布与谷歌Gemini合作,用户将能在Gemini应用中直接使用CapCut的图片与视频编辑工具。双方认为未来创作将更互联、直观,门槛更低。此前谷歌相册已测试过将内容导出至CapCut编辑,此次合作是此前互动的深化。
剪映国际版CapCut宣布与谷歌Gemini合作,用户将能在Gemini应用中直接使用其创意编辑工具处理图片与视频。双方旨在推动创作流程更互联、直观与智能化,此前已有谷歌相册与CapCut的协同尝试,此次合作进一步整合内容创作环节。
GeminiOmni正式发布,实现推理与创作能力融合。它支持图像、音频、视频和文字任意组合输入,生成高质量视频,并可通过自然语言对话直观编辑。首款模型GeminiOmniFlash已向订阅用户及部分平台开放。模型融合真实世界知识,确保内容符合物理规律与逻辑一致性,并自动添加隐形数字水印以增强透明度。
热门专题
热门推荐
在儿童教育内容创作领域,一个名为“艾绘”的在线绘本创作平台正受到越来越多家长和教育工作者的关注。它将自己定位为一站式个性化绘本制作解决方案,核心目标是通过智能化工具大幅降低创作门槛,让每个家庭都能轻松创作出专属的儿童故事绘本。 那么,这个儿童绘本制作平台具体是如何工作的呢?其核心是构建了一个庞大的素
2025年币圈看盘软件终极指南:如何选择最适合你的行情工具? 进入2025年,加密货币市场日趋成熟,行情波动瞬息万变。无论是追踪主流币种价格,还是分析新兴NFT与DeFi项目,一款精准、高效、可靠的看盘软件已成为Web3投资者与交易者的核心装备。面对市场上琳琅满目的选择,如何找到最适合自己的那一款?
Latent Labs(潜伏实验室)项目官网近期发布了一则充满想象空间的预告:“潜伏实验室即将回归!敬请期待以下场景的加载……童话支柱、美丽天空、灰色地牢、空间站城市”。这一系列关键词生动描绘出一个融合奇幻童话与未来科幻的沉浸式虚拟世界框架,预示着其在AI与VR领域的新探索。 网站数据与影响力评估
在三维设计与数字创意行业,工作效率直接影响项目交付质量与市场竞争力。面对复杂的模型文件管理、跨平台格式兼容性挑战以及团队协作中的沟通壁垒,设计师与建模师亟需一套能够整合并优化全流程的云端解决方案。今天,我们将深入解析一个专注于提升3D工作效率的在线平台——51建模网,探讨其如何通过智能化工具重塑三维
在日常信息处理工作中,你是否经常遇到这样的效率瓶颈:为了查找一个答案,不得不在多个浏览器标签页、文档和不同AI工具之间来回切换、反复复制粘贴?这种操作不仅繁琐耗时,还会频繁打断你的深度思考和工作流。那么,有没有一款工具能够像在文档中使用“Copilot”那样,让我们直接在浏览的网页上随时获得智能辅助





