谷歌I/O大会发布视频大模型与音频眼镜Gemini全面升级

时间：2026-05-20 21:17

GoogleI O2026开发者大会聚焦AI生态整合。全新视频模型GeminiOmni支持多模态输入输出与实时编辑，Gemini3 5系列模型性能提升。AI智能体GeminiSpark实现系统级任务自动化，搜索引入生成式交互界面。音频眼镜等硬件拓展多模态应用场景。Google正通过AI深度赋能其全系产品与服务，构建紧密联动的生态系统。

千呼万唤始出来，北京时间2026年5月20日凌晨，Google I/O开发者大会的大幕终于拉开。或许是刻意为之，Google提前通过《The Android Show》节目“分流”了Android 17的大部分新特性，让本届大会的核心焦点毫无悬念地落在了AI身上。

不过，Google的AI叙事向来与众不同。手握Gemini大模型、YouTube、网页搜索、Android操作系统等多张王牌，它思考的从来不是如何打造一个孤立的AI工具，而是如何让AI成为贯穿其整个生态系统的“神经中枢”。因此，本届I/O的主题，与其说是发布新技术，不如说是一场关于“如何用AI为既有生态全面赋能”的深度预演。

视频模型Omni与3.5：新模型双王炸让Google AI更全能

模型层面，Google正式推出了迄今为止最全能的Gemini Omni。这个名字本身就暗示了其野心——全能。用最直白的话概括，它实现了“任意形式输入，任意形式输出”。更关键的是，整个生成过程不再是“一锤子买卖”，用户可以通过对话实时进行修改和调整。

图片来源：Google

大会演示了一个制作MV的场景：只需将音乐、视频片段、图片素材连同大致的画面要求一并提交给Omni，它就能直接生成一段匹配的短视频。但这还不是最令人惊讶的。另一个演示中，工作人员在一张白纸上手绘了一个圆圈，并附上一句文字描述，Omni便据此生成了一段完整的特效动画。若对其中某个元素不满意，比如觉得玻璃建筑不够梦幻，只需说出“把玻璃建筑换成肥皂泡”，Omni就能精准替换，新生成的肥皂泡甚至拥有逼真的物理碰撞效果。

图片来源：Google

Google自己对此的比喻颇为有趣，称“Gemini Omni就像是视频领域的Nano Banana”，意指其在特定领域的碘伏性。据悉，Omni Flash模型即日起将在Gemini App、Google Flow、YouTube Shorts等平台上线，相应的API也会随后开放。

截屏2026-05-20 01.24.48.png

图片来源：Google

除了这位“全能选手”，Gemini家族也迎来了3.5版本更新，首发的是轻量级的Gemini 3.5 Flash。相比前代3.1 Pro，新版本在编程、现实环境智能体任务执行以及大规模工具调用等测试中表现更优。按照惯例，有Flash必有Pro，Google也预告了性能更强的Gemini 3.5 Pro将于下月亮相。可以说，在模型能力的“多、快、好、省”这四个维度上，Google此次展示的成果堪称全面。

Google Antigra vity与Gemini Spark：智能体重构搜索体验

底层模型能力跃升，基于其上构建的AI智能体自然水涨船高。

截屏2026-05-20 01.32.04.png

图片来源：Google

面向开发者，Google的AI开发环境Antigra vity已集成Gemini 3.5 Flash。一个震撼的案例是，借助新模型，Antigra vity仅用12小时就搭建了一个操作系统内核，而整个过程的AI API成本竟控制在1000美元以内。

截屏2026-05-20 01.29.44.png

图片来源：Google

更具碘伏性的是，Google甚至利用Antigra vity和Gemini 3.5 Flash重构了其核心产品——搜索的交互界面，提出了“生成式UI”的概念。目前，即便在搜索页面启用AI模式，其结果也大多以传统对话框的形式呈现。这对于简单问答尚可，但遇到“陀飞轮是如何工作的？”这类需要直观演示的复杂问题时，文本的局限性就暴露无遗。

截屏2026-05-20 01.44.46.png

图片来源：Google

新的解决方案是，面对复杂查询，搜索AI会运用“Vibe Coding”技术，动态生成一个包含交互元素的前端页面，让用户通过点击、拖拽等方式直接获得答案。这项功能预计在2026年夏季上线，并且它将作为Google搜索的免费更新提供，无需订阅Gemini高级服务。同时，Gemini App本身的界面也获得了更新，与Android的新视觉语言更加统一。

截屏2026-05-20 01.54.04.png

图片来源：Google

得益于3.5 Flash的多模态能力，搜索的输入和预测也得到增强。现在，除了文字和图片，用户可以直接上传视频或文档进行搜索。而传统的搜索建议框，也升级为基于AI理解的智能补全。

截屏2026-05-20 01.47.02.png

图片来源：Google

除了这些前台可见的变化，搜索智能体的“后台能力”也被大幅强化。全新的搜索Agent可以全天候运行，持续监控用户指定的信息。例如，你可以让它紧盯OpenAI、Anthropic等竞争对手的动态，一旦有重大新闻，立即通过邮件等方式推送，确保你不会错过任何热点。

说到智能体，Google正式发布了面向个人用户的新产品——Gemini Spark。与同类产品一样，它能7×24小时接管手机和浏览器。但其独特之处在于，Spark运行在一个专门的虚拟化环境中，安全性更高。它由Gemini 3.5 Flash和Antigra vity驱动，支持语音交互和后台响应，不仅能无缝调用Google Docs、日历、Gmail等自家服务，还能通过MCP协议与外部应用互联，实现更复杂的任务自动化。

截屏2026-05-20 01.58.41.png

图片来源：Google

虽然Google未明确公布其跨平台策略，但预计它将通过Gemini App登陆iOS，并以深度集成的方式进入Android系统。当Spark在后台运行时，Android系统会在屏幕左上角常驻一个状态标记（名为Android Halo），方便用户随时查看或跳转，其设计逻辑与当前的摄像头、麦克风使用提示类似。这看似是一个小功能，实则意味深长——它暗示着智能体在未来的移动体验中，将如同摄像头和传感器一样，成为系统级的基础设施。

截屏2026-05-20 01.42.25.png

图片来源：Google

桌面端方面，Gemini Spark将于今夏登陆Chrome浏览器。需要注意的是，与一些提供部分免费服务的国内AI智能体不同，Spark是一项完整的订阅功能，下周将率先面向Google AI Ultra订阅用户开放。

图片来源：Google

值得一提的是，为了细化用户分层，Google在原有的AI Pro和AI Ultra套餐之间，新增了一个“青春版”AI Ultra等级，月费定为100美元。这背后反映出一个现实：即便强如Google，也难以完全承担全面AI化带来的巨额算力成本。AI的尽头是算力，而算力的尽头是真金白银的投入。未来，为高级AI服务付费，或许会像今天的手机话费一样，成为一项普遍的“刚性消费”。

截屏2026-05-20 01.35.49.png

图片来源：Google

音频眼镜首次登台，Gemini硬件生态日渐完善

去年，Google展示了带显示功能的AR眼镜原型。今年，其硬件生态补上了“音频版”智能眼镜这一环。需要澄清的是，这款Gemini音频眼镜并非简单的耳机替代品，它配备了摄像头，具备完整的AI视觉和多模态输入能力。

由于产品要等到2026年秋季才会发布（很可能为了适配高通新一代芯片），本次大会仅展示了外观和核心功能。设计上，Google选择了与三星及知名眼镜品牌Gentle Monster、Warby Parker合作。功能上，用户可通过语音或镜腿上的触控板唤醒Gemini。

图片来源：Google

凭借底层模型和Spark智能体的能力，眼镜可以将用户的语音指令自动分解为一系列操作，并在手机后台执行。例如，用户可以说“买一杯上次点的咖啡”，手机上的Gemini便会自动打开咖啡应用、添加商品，并在用户语音确认（预计采用声纹验证）后完成支付。

图片来源：Google

一个值得关注的细节是，Google宣布这款眼镜将同时支持Android和iOS平台。不过，在iOS严格的沙盒机制下，其在iPhone上的能力势必会受到一定限制。

为了进一步拓展Gemini的应用场景，Google Workspace办公套件也全面AI化。用户可以通过语音，让Gemini在Gmail中查找邮件，在Docs中辅助写作，甚至在Google Pics中生成图像。

截屏2026-05-20 01.07.24.png

图片来源：Google

结合此前曝光的搭载Gemini的高端“Googlebook”笔记本，可以看出，Google正不遗余力地将Gemini注入其所能触及的每一个硬件生态位。

主题演讲至此结束。表面上看，这似乎是Google在AI竞赛中后发制人的一次“画饼”。但深入分析，Google I/O 2026所揭示的，恰恰是Google终于找到了属于AI时代的正确打开方式。

例如，针对“AI交互该如何进行”这个根本问题，Google敢于对自家的“摇钱树”开刀，用“生成式UI”打破了传统AIGC“回合制”的单向交互模式。这种从单向到双向的转变，也延伸到了硬件领域。过去，AI硬件常常是“硬件归硬件，AI归AI”，两者结合生硬。而现在，Gemini 3.5 Flash的多模态能力，让音频眼镜等设备真正成为了Gemini感知世界的“物理器官”。

图片来源：Google

更重要的是，Gemini正在利用其在Android系统中的底层优势，构筑一道其他厂商难以逾越的护城河。当其他AI智能体还在应用沙盒的边界外徘徊，依靠协议艰难地进行跨应用协同时，Gemini已经凭借系统级权限，实现了原生级的无缝互通。

回看开头提到的，Google手握的多个生态入口——Gemini、YouTube、搜索、Android。在I/O 2026上，这些曾经四处“开花”的生态，终于迎来了“结果”的季节，它们被AI紧密地编织成了一张大网。

当然，这套高度依赖Google自有生态的打法，对OpenAI等对手是挑战，但对国内AI企业而言，或许也指明了另一种机遇。Gemini的全家桶模式在国内难免“水土不服”，但其“多模态交互+系统级集成+全天候智能体”的核心逻辑，却极具参考价值。海外有Google在原生安卓底层破局，国内厂商同样可以在深度定制的系统里，构建自己的AI生态王国。更何况，国内品牌在智能体场景落地的“内卷”程度和本地化深度，往往比原生系统更为激进和接地气。

Google I/O 2026，可以看作是Google亮出了Gemini的底牌。接下来，就看国内外的玩家们，如何接招与破局了。

来源：https://www.leikeji.com/article/76871

Google