谷歌Gemini Omni全能模型发布支持任意输入输出可一句话修改视频

首页

热心网友

转载

2026-05-20

2026年5月20日，在备受瞩目的谷歌I/O开发者大会上，Gemini模型家族迎来了其里程碑式的新成员——Gemini Omni。正如其名“Omni”（意为“全能”）所揭示的，这款新一代人工智能模型致力于彻底打破文本、图像、音频与视频之间的模态界限，实现真正的跨模态理解与创作。

谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频

Google DeepMind负责人、诺贝尔物理学奖得主德米斯·哈萨比斯（Demis Hassabis）在主题演讲中着重指出，Gemini Omni在理解和处理文字、图片、视频、音频等多种信息格式时，展现了突破性的流畅性与深度。其最核心的突破被定义为“支持任意模态输入，并生成任意模态输出”，这一特性预示着生成式AI应用场景的巨大扩展。

大会现场演示了一个生动的应用实例：对话式智能视频编辑。用户仅需向AI输入一句简单的自然语言指令（例如“将视频中的主角外套换成蓝色”或“把背景替换为都市夜景”），模型便能精准理解并执行对视频内容的修改。这标志着视频剪辑与内容创作的门槛有望被进一步显著降低。

即刻可用的轻量版本

与全能架构一同亮相的，还有该系列首个即用型模型：Gemini Omni Flash。这款轻量级模型已于发布当日，在Gemini App、Google Flow及YouTube Shorts等谷歌核心产品中集成上线，为用户提供初步却强大的多模态交互功能。谷歌同时承诺，即将面向广大开发者开放相应的API接口服务，以便将Gemini Omni的先进能力更广泛地集成到各类第三方应用与解决方案中。

此次Gemini Omni的发布，无疑为全球多模态人工智能技术的发展设立了新的标杆。其在实际应用中的性能表现与生态影响，将成为业界持续关注的焦点。

来源:https://www.ithome.com/0/952/519.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：豆包AI帮你轻松理解课文难点内容下一篇：谷歌每月处理超3200万亿Token 年增长高达7倍

相关攻略

谷歌Gemini Spark智能体发布一句话指令让AI同时处理多项任务

今天凌晨的谷歌I O开发者大会，带来了令人振奋的重磅发布。谷歌正式推出了名为Gemini Spark的个人AI智能体，这不仅仅是一个简单的聊天机器人，更是一个能够同时处理多项任务的智能副手，真正实现了“一句话让AI干几份活”的高效体验。 Gemini Spark的核心设计理念是极致的用户导向：一切听

热心网友

05.20

科技数码

谷歌三星联手推出两款智能眼镜集成Gemini AI支持语音导航

谷歌与三星合作推出两款智能眼镜，整合GeminiAI，支持语音导航与实时翻译。眼镜设计分为时尚与经典两种风格，旨在提供免手持的信息服务，如路线指引、附近推荐与通知整理。产品预计秋季上市，具体售价待公布。

热心网友

05.20

科技数码

谷歌与三星发布两款智能眼镜：集成Gemini AI并支持语音导航

谷歌与三星在I O大会上展示了两款智能眼镜原型，由GentleMonster和WarbyParker分别设计。眼镜整合GeminiAI，作为手机伴侣提供免手持交互，支持语音导航、个性化推荐、订单下达及通知摘要。其实时翻译功能可处理对话与视觉文字，并贴近原声音质。两款设计风格各异，瞄准不同用户。价格未定，传闻约379至499美元，预计秋季上市。

热心网友

05.20

科技数码

谷歌Gemini 3.5系列AI模型正式发布

谷歌于5月20日正式发布Gemini3 5Flash模型，定位为当前最快、最高效的模型，旨在满足需要即时响应的现实场景。该轻量级模型致力于帮助用户处理日常事务与多步骤创意项目，应对各种复杂性并快速将想法转化为行动。

热心网友

05.20

科技数码

谷歌Gemini 3.5系列模型正式发布

谷歌发布Gemini3 5Flash模型，强调其是目前最快、最高效的AI模型，旨在应对现实场景中需要快速响应和多步骤处理的复杂任务。该模型注重轻量化与高性能的平衡，针对实时对话、内容摘要等高频率需求优化，以提升用户体验并控制成本。此举加剧了中端AI市场的竞争，推动AI工具向更高效、更易用的方向发展。

热心网友

05.20