谷歌Gemini Omni全能模型发布支持任意输入输出可一句话修改视频
2026年5月20日,在备受瞩目的谷歌I/O开发者大会上,Gemini模型家族迎来了其里程碑式的新成员——Gemini Omni。正如其名“Omni”(意为“全能”)所揭示的,这款新一代人工智能模型致力于彻底打破文本、图像、音频与视频之间的模态界限,实现真正的跨模态理解与创作。

Google DeepMind负责人、诺贝尔物理学奖得主德米斯·哈萨比斯(Demis Hassabis)在主题演讲中着重指出,Gemini Omni在理解和处理文字、图片、视频、音频等多种信息格式时,展现了突破性的流畅性与深度。其最核心的突破被定义为“支持任意模态输入,并生成任意模态输出”,这一特性预示着生成式AI应用场景的巨大扩展。
大会现场演示了一个生动的应用实例:对话式智能视频编辑。用户仅需向AI输入一句简单的自然语言指令(例如“将视频中的主角外套换成蓝色”或“把背景替换为都市夜景”),模型便能精准理解并执行对视频内容的修改。这标志着视频剪辑与内容创作的门槛有望被进一步显著降低。
即刻可用的轻量版本
与全能架构一同亮相的,还有该系列首个即用型模型:Gemini Omni Flash。这款轻量级模型已于发布当日,在Gemini App、Google Flow及YouTube Shorts等谷歌核心产品中集成上线,为用户提供初步却强大的多模态交互功能。谷歌同时承诺,即将面向广大开发者开放相应的API接口服务,以便将Gemini Omni的先进能力更广泛地集成到各类第三方应用与解决方案中。
此次Gemini Omni的发布,无疑为全球多模态人工智能技术的发展设立了新的标杆。其在实际应用中的性能表现与生态影响,将成为业界持续关注的焦点。
相关攻略
今天凌晨的谷歌I O开发者大会,带来了令人振奋的重磅发布。谷歌正式推出了名为Gemini Spark的个人AI智能体,这不仅仅是一个简单的聊天机器人,更是一个能够同时处理多项任务的智能副手,真正实现了“一句话让AI干几份活”的高效体验。 Gemini Spark的核心设计理念是极致的用户导向:一切听
谷歌与三星合作推出两款智能眼镜,整合GeminiAI,支持语音导航与实时翻译。眼镜设计分为时尚与经典两种风格,旨在提供免手持的信息服务,如路线指引、附近推荐与通知整理。产品预计秋季上市,具体售价待公布。
谷歌与三星在I O大会上展示了两款智能眼镜原型,由GentleMonster和WarbyParker分别设计。眼镜整合GeminiAI,作为手机伴侣提供免手持交互,支持语音导航、个性化推荐、订单下达及通知摘要。其实时翻译功能可处理对话与视觉文字,并贴近原声音质。两款设计风格各异,瞄准不同用户。价格未定,传闻约379至499美元,预计秋季上市。
谷歌于5月20日正式发布Gemini3 5Flash模型,定位为当前最快、最高效的模型,旨在满足需要即时响应的现实场景。该轻量级模型致力于帮助用户处理日常事务与多步骤创意项目,应对各种复杂性并快速将想法转化为行动。
谷歌发布Gemini3 5Flash模型,强调其是目前最快、最高效的AI模型,旨在应对现实场景中需要快速响应和多步骤处理的复杂任务。该模型注重轻量化与高性能的平衡,针对实时对话、内容摘要等高频率需求优化,以提升用户体验并控制成本。此举加剧了中端AI市场的竞争,推动AI工具向更高效、更易用的方向发展。
热门专题
热门推荐
陆瑾是《异人之下》手游中操作门槛较高的角色,主打中近距离压制。其核心在于普攻攒炁,并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守,成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判,形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机,分别用于破防与针。
投资策略需要明确目标与风险偏好,合理分配资金。通过研究项目基本面、关注市场周期与情绪,建立多元化组合。执行中需设定清晰的买卖规则,利用工具辅助决策,并保持长期视角与纪律性,避免情绪化操作。定期复盘与调整是策略持续有效的关键。
巴伦是《异人之下》手游中的近战压制型角色,核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅,“极速连斩”可追击倒地目标,“飞身十字固”抓取伤害高,“逆势突围”用于防守反击。角色操作上限高,需练习掌握连招循环,但对战远程角色时较为吃力。
谷歌宣布Gemini3 5Pro模型下月发布,已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布,更多信息将于下月揭晓。
谷歌在2026年I O大会上推出月费100美元的新AI订阅计划,旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队,提供比基础版更强的性能,同时避免企业级的高昂成本,以竞争中高端市场。





