谷歌I/O大会发布视频大模型与音频眼镜Gemini全面升级
千呼万唤始出来,北京时间2026年5月20日凌晨,Google I/O开发者大会的大幕终于拉开。或许是刻意为之,Google提前通过《The Android Show》节目“分流”了Android 17的大部分新特性,让本届大会的核心焦点毫无悬念地落在了AI身上。
不过,Google的AI叙事向来与众不同。手握Gemini大模型、YouTube、网页搜索、Android操作系统等多张王牌,它思考的从来不是如何打造一个孤立的AI工具,而是如何让AI成为贯穿其整个生态系统的“神经中枢”。因此,本届I/O的主题,与其说是发布新技术,不如说是一场关于“如何用AI为既有生态全面赋能”的深度预演。
视频模型Omni与3.5:新模型双王炸让Google AI更全能
模型层面,Google正式推出了迄今为止最全能的Gemini Omni。这个名字本身就暗示了其野心——全能。用最直白的话概括,它实现了“任意形式输入,任意形式输出”。更关键的是,整个生成过程不再是“一锤子买卖”,用户可以通过对话实时进行修改和调整。

图片来源:Google
大会演示了一个制作MV的场景:只需将音乐、视频片段、图片素材连同大致的画面要求一并提交给Omni,它就能直接生成一段匹配的短视频。但这还不是最令人惊讶的。另一个演示中,工作人员在一张白纸上手绘了一个圆圈,并附上一句文字描述,Omni便据此生成了一段完整的特效动画。若对其中某个元素不满意,比如觉得玻璃建筑不够梦幻,只需说出“把玻璃建筑换成肥皂泡”,Omni就能精准替换,新生成的肥皂泡甚至拥有逼真的物理碰撞效果。

图片来源:Google
Google自己对此的比喻颇为有趣,称“Gemini Omni就像是视频领域的Nano Banana”,意指其在特定领域的碘伏性。据悉,Omni Flash模型即日起将在Gemini App、Google Flow、YouTube Shorts等平台上线,相应的API也会随后开放。

图片来源:Google
除了这位“全能选手”,Gemini家族也迎来了3.5版本更新,首发的是轻量级的Gemini 3.5 Flash。相比前代3.1 Pro,新版本在编程、现实环境智能体任务执行以及大规模工具调用等测试中表现更优。按照惯例,有Flash必有Pro,Google也预告了性能更强的Gemini 3.5 Pro将于下月亮相。可以说,在模型能力的“多、快、好、省”这四个维度上,Google此次展示的成果堪称全面。
Google Antigra vity与Gemini Spark:智能体重构搜索体验
底层模型能力跃升,基于其上构建的AI智能体自然水涨船高。

图片来源:Google
面向开发者,Google的AI开发环境Antigra vity已集成Gemini 3.5 Flash。一个震撼的案例是,借助新模型,Antigra vity仅用12小时就搭建了一个操作系统内核,而整个过程的AI API成本竟控制在1000美元以内。

图片来源:Google
更具碘伏性的是,Google甚至利用Antigra vity和Gemini 3.5 Flash重构了其核心产品——搜索的交互界面,提出了“生成式UI”的概念。目前,即便在搜索页面启用AI模式,其结果也大多以传统对话框的形式呈现。这对于简单问答尚可,但遇到“陀飞轮是如何工作的?”这类需要直观演示的复杂问题时,文本的局限性就暴露无遗。

图片来源:Google
新的解决方案是,面对复杂查询,搜索AI会运用“Vibe Coding”技术,动态生成一个包含交互元素的前端页面,让用户通过点击、拖拽等方式直接获得答案。这项功能预计在2026年夏季上线,并且它将作为Google搜索的免费更新提供,无需订阅Gemini高级服务。同时,Gemini App本身的界面也获得了更新,与Android的新视觉语言更加统一。

图片来源:Google
得益于3.5 Flash的多模态能力,搜索的输入和预测也得到增强。现在,除了文字和图片,用户可以直接上传视频或文档进行搜索。而传统的搜索建议框,也升级为基于AI理解的智能补全。

图片来源:Google
除了这些前台可见的变化,搜索智能体的“后台能力”也被大幅强化。全新的搜索Agent可以全天候运行,持续监控用户指定的信息。例如,你可以让它紧盯OpenAI、Anthropic等竞争对手的动态,一旦有重大新闻,立即通过邮件等方式推送,确保你不会错过任何热点。
说到智能体,Google正式发布了面向个人用户的新产品——Gemini Spark。与同类产品一样,它能7×24小时接管手机和浏览器。但其独特之处在于,Spark运行在一个专门的虚拟化环境中,安全性更高。它由Gemini 3.5 Flash和Antigra vity驱动,支持语音交互和后台响应,不仅能无缝调用Google Docs、日历、Gmail等自家服务,还能通过MCP协议与外部应用互联,实现更复杂的任务自动化。

图片来源:Google
虽然Google未明确公布其跨平台策略,但预计它将通过Gemini App登陆iOS,并以深度集成的方式进入Android系统。当Spark在后台运行时,Android系统会在屏幕左上角常驻一个状态标记(名为Android Halo),方便用户随时查看或跳转,其设计逻辑与当前的摄像头、麦克风使用提示类似。这看似是一个小功能,实则意味深长——它暗示着智能体在未来的移动体验中,将如同摄像头和传感器一样,成为系统级的基础设施。

图片来源:Google
桌面端方面,Gemini Spark将于今夏登陆Chrome浏览器。需要注意的是,与一些提供部分免费服务的国内AI智能体不同,Spark是一项完整的订阅功能,下周将率先面向Google AI Ultra订阅用户开放。

图片来源:Google
值得一提的是,为了细化用户分层,Google在原有的AI Pro和AI Ultra套餐之间,新增了一个“青春版”AI Ultra等级,月费定为100美元。这背后反映出一个现实:即便强如Google,也难以完全承担全面AI化带来的巨额算力成本。AI的尽头是算力,而算力的尽头是真金白银的投入。未来,为高级AI服务付费,或许会像今天的手机话费一样,成为一项普遍的“刚性消费”。

图片来源:Google
音频眼镜首次登台,Gemini硬件生态日渐完善
去年,Google展示了带显示功能的AR眼镜原型。今年,其硬件生态补上了“音频版”智能眼镜这一环。需要澄清的是,这款Gemini音频眼镜并非简单的耳机替代品,它配备了摄像头,具备完整的AI视觉和多模态输入能力。
由于产品要等到2026年秋季才会发布(很可能为了适配高通新一代芯片),本次大会仅展示了外观和核心功能。设计上,Google选择了与三星及知名眼镜品牌Gentle Monster、Warby Parker合作。功能上,用户可通过语音或镜腿上的触控板唤醒Gemini。

图片来源:Google
凭借底层模型和Spark智能体的能力,眼镜可以将用户的语音指令自动分解为一系列操作,并在手机后台执行。例如,用户可以说“买一杯上次点的咖啡”,手机上的Gemini便会自动打开咖啡应用、添加商品,并在用户语音确认(预计采用声纹验证)后完成支付。

图片来源:Google
一个值得关注的细节是,Google宣布这款眼镜将同时支持Android和iOS平台。不过,在iOS严格的沙盒机制下,其在iPhone上的能力势必会受到一定限制。
为了进一步拓展Gemini的应用场景,Google Workspace办公套件也全面AI化。用户可以通过语音,让Gemini在Gmail中查找邮件,在Docs中辅助写作,甚至在Google Pics中生成图像。

图片来源:Google
结合此前曝光的搭载Gemini的高端“Googlebook”笔记本,可以看出,Google正不遗余力地将Gemini注入其所能触及的每一个硬件生态位。
主题演讲至此结束。表面上看,这似乎是Google在AI竞赛中后发制人的一次“画饼”。但深入分析,Google I/O 2026所揭示的,恰恰是Google终于找到了属于AI时代的正确打开方式。
例如,针对“AI交互该如何进行”这个根本问题,Google敢于对自家的“摇钱树”开刀,用“生成式UI”打破了传统AIGC“回合制”的单向交互模式。这种从单向到双向的转变,也延伸到了硬件领域。过去,AI硬件常常是“硬件归硬件,AI归AI”,两者结合生硬。而现在,Gemini 3.5 Flash的多模态能力,让音频眼镜等设备真正成为了Gemini感知世界的“物理器官”。

图片来源:Google
更重要的是,Gemini正在利用其在Android系统中的底层优势,构筑一道其他厂商难以逾越的护城河。当其他AI智能体还在应用沙盒的边界外徘徊,依靠协议艰难地进行跨应用协同时,Gemini已经凭借系统级权限,实现了原生级的无缝互通。
回看开头提到的,Google手握的多个生态入口——Gemini、YouTube、搜索、Android。在I/O 2026上,这些曾经四处“开花”的生态,终于迎来了“结果”的季节,它们被AI紧密地编织成了一张大网。
当然,这套高度依赖Google自有生态的打法,对OpenAI等对手是挑战,但对国内AI企业而言,或许也指明了另一种机遇。Gemini的全家桶模式在国内难免“水土不服”,但其“多模态交互+系统级集成+全天候智能体”的核心逻辑,却极具参考价值。海外有Google在原生安卓底层破局,国内厂商同样可以在深度定制的系统里,构建自己的AI生态王国。更何况,国内品牌在智能体场景落地的“内卷”程度和本地化深度,往往比原生系统更为激进和接地气。
Google I/O 2026,可以看作是Google亮出了Gemini的底牌。接下来,就看国内外的玩家们,如何接招与破局了。
相关攻略
在数据分析和内容创作的日常工作中,我们常常需要穿梭于不同的工具和平台之间,这个过程既繁琐又容易打断思路。有没有一种可能,让强大的AI语言模型直接在你最熟悉的电子表格里为你工作?这正是“ChatGPT in Google Sheets”所要解决的问题。它不是一个独立的应用,而是一个将ChatGPT的能
谷歌在I O大会上宣布为Workspace办公套件引入语音对话式AI助手,显著提升Gmail、Docs和Keep的交互效率。用户可通过自然语言直接检索Gmail邮件中的关键信息;Docs支持口述起草并智能调取相关资料补充文档;Keep则能将语音记录的想法自动整理成清单。同时,新推出的GoogleP
谷歌在近期开发者大会上宣布升级其AI创意平台GoogleFlow。本次升级重点整合了GeminiOmniFlash模型,显著增强了视频的精细度与角色一致性。平台同时引入了名为FlowAgent的智能创作助手,能辅助用户进行头脑风暴、内容生成与批量。此外,用户现可通过自然语言自定义工具
谷歌在I O大会上推出集成AI图像生成与设计工具GooglePics,主要服务于Workspace用户。其最大特色是将AI生图与精细化合二为一,用户可对生成图片的任意局部进行点选和文字指令修改,包括直接图片中的文字,无需全图重制。工具首先生成多个方案供用户选择,输出支持常见格式。未来计划推
昨天看到一条消息,说有人在 iPhone 17 Pro 上运行 Google 最新发布的 Gemma 4 模型,推理速度超过了每秒 40 个 token。第一反应是:这可能吗? 要知道,Gemma 4 是 Google 在 4 月 2 号刚发布的开源模型家族中的旗舰款。其参数量最大的 31B 版本在
热门专题
热门推荐
灵兽品阶决定成长上限,需按职业选择走兽、飞禽或鳞甲类。养成应与角色境界同步,集中资源优先培养主力至高星。技能分先天与后天,后天技能可动态调整应对战局。属性差异有限,后期培养深度更为关键。新手建议从中品起步,非重氪玩家以上品灵兽作为中期主力性价比更高。长期养成需分。
马斯克起诉OpenAI违背非营利使命一案因超过诉讼时效被法院驳回。马斯克原承诺出资10亿美元实际仅投入3800万美元,后因控制权之争离开。此后OpenAI转型营利并估值飙升,本案虽凸显非营利初心与资本扩张的冲突,但法庭未就实质问题作出裁决。
《天下归心》新版本“风起官渡”开启预约。鲁肃、孟获两位新名将登场,其技能将改变阵容搭配逻辑。跨服官渡之战复刻历史多阶段阵营对抗,重现史诗战场。新增藏品阁系统,陈列藏品可提升全队战力。士兵系统革新,装配军旗与令箭可释放觉醒技能,深化战术策略。预约即可领取专属礼包。
长城汽车创始人魏建军以“怕”为引,强调敬畏造车规律、珍视用户信任。面对行业内卷与营销泡沫,长城坚持长期主义,投入巨资研发并延长验证周期,以归元平台及魏牌V9X展现技术实力与品质承诺。通过将个人声誉与品牌绑定,长城构建以信任为核心的持久竞争力,其探索对行业良性发展具有重。
深蓝S05轴距达2880毫米,搭载AI大模型与L2+级智驾,注重科技体验与纯电性能。皓瀚DH-i轴距2775毫米,配备L2级辅助驾驶与实用智能座舱,强调经济可靠与混动平衡。两者分别吸引追求前沿科技的年轻群体和重视实用性的家庭用户,体现了新能源市场技术路线多元化并存的趋势。





