谷歌Gemini Omni模型上线 AI一句话即可修改视频

时间：2026-05-20 07:15

谷歌发布全新多模态模型GeminiOmni，旨在打破媒介壁垒，实现“从任何输入生成任何输出”。用户可通过对话直接编辑视频，例如替换角色或更改场景背景，有望大幅降低创意制作门槛。同时，基于该架构的轻量级产品GeminiOmniFlash已上线谷歌多个应用，其API服务也已在规划中，未来将向第三方开放集成。

北京时间今日凌晨，谷歌2026年度I/O开发者大会正式拉开帷幕。正如会前所预期，人工智能再次成为全场焦点，而此次聚光灯下的核心，是全新发布的Gemini Omni模型。

谷歌官方对Gemini Omni的描述极具突破性：“能够处理任意类型的输入，并生成任意形式的输出”。这一愿景如何解读？本质上，它旨在彻底打通文本、图像、音频、视频等不同模态信息之间的隔阂。举例而言，用户可以通过自然语言对话直接编辑视频内容：仅需一句话指令，即可替换视频中的特定人物，或一键更改整个片段的场景氛围。这种“对话式AI视频编辑”功能若能成熟落地，将显著降低专业级创意内容的制作难度与成本。

紧随模型发布，谷歌同步推出了基于Omni架构的首个产品化应用——Gemini Omni Flash。根据I/O大会披露的信息，这款轻量化、高效率的模型已即时集成至Gemini App、Google Flow工作流及YouTube Shorts等谷歌核心生态产品中。对于广大开发者与科技企业而言，更具意义的是其API接口服务已列入发布路线图。这意味着在不久的将来，第三方应用程序与服务平台也能便捷接入Gemini Omni强大的多模态理解与生成能力，为用户创造更智能的交互体验。