游乐游手机版
首页/科技数码/文章详情

谷歌I/O大会发布视频大模型与音频眼镜Gemini全面升级

时间:2026-05-20 21:17
GoogleI O2026开发者大会聚焦AI生态整合。全新视频模型GeminiOmni支持多模态输入输出与实时编辑,Gemini3 5系列模型性能提升。AI智能体GeminiSpark实现系统级任务自动化,搜索引入生成式交互界面。音频眼镜等硬件拓展多模态应用场景。Google正通过AI深度赋能其全系产品与服务,构建紧密联动的生态系统。

千呼万唤始出来,北京时间2026年5月20日凌晨,Google I/O开发者大会的大幕终于拉开。或许是刻意为之,Google提前通过《The Android Show》节目“分流”了Android 17的大部分新特性,让本届大会的核心焦点毫无悬念地落在了AI身上。

不过,Google的AI叙事向来与众不同。手握Gemini大模型、YouTube、网页搜索、Android操作系统等多张王牌,它思考的从来不是如何打造一个孤立的AI工具,而是如何让AI成为贯穿其整个生态系统的“神经中枢”。因此,本届I/O的主题,与其说是发布新技术,不如说是一场关于“如何用AI为既有生态全面赋能”的深度预演。

视频模型Omni与3.5:新模型双王炸让Google AI更全能

模型层面,Google正式推出了迄今为止最全能的Gemini Omni。这个名字本身就暗示了其野心——全能。用最直白的话概括,它实现了“任意形式输入,任意形式输出”。更关键的是,整个生成过程不再是“一锤子买卖”,用户可以通过对话实时进行修改和调整。

IMG_2075.png

图片来源:Google

大会演示了一个制作MV的场景:只需将音乐、视频片段、图片素材连同大致的画面要求一并提交给Omni,它就能直接生成一段匹配的短视频。但这还不是最令人惊讶的。另一个演示中,工作人员在一张白纸上手绘了一个圆圈,并附上一句文字描述,Omni便据此生成了一段完整的特效动画。若对其中某个元素不满意,比如觉得玻璃建筑不够梦幻,只需说出“把玻璃建筑换成肥皂泡”,Omni就能精准替换,新生成的肥皂泡甚至拥有逼真的物理碰撞效果。

IMG_2074.png

图片来源:Google

Google自己对此的比喻颇为有趣,称“Gemini Omni就像是视频领域的Nano Banana”,意指其在特定领域的碘伏性。据悉,Omni Flash模型即日起将在Gemini App、Google Flow、YouTube Shorts等平台上线,相应的API也会随后开放。

截屏2026-05-20 01.24.48.png

图片来源:Google

除了这位“全能选手”,Gemini家族也迎来了3.5版本更新,首发的是轻量级的Gemini 3.5 Flash。相比前代3.1 Pro,新版本在编程、现实环境智能体任务执行以及大规模工具调用等测试中表现更优。按照惯例,有Flash必有Pro,Google也预告了性能更强的Gemini 3.5 Pro将于下月亮相。可以说,在模型能力的“多、快、好、省”这四个维度上,Google此次展示的成果堪称全面。

Google Antigra vity与Gemini Spark:智能体重构搜索体验

底层模型能力跃升,基于其上构建的AI智能体自然水涨船高。

截屏2026-05-20 01.32.04.png

图片来源:Google

面向开发者,Google的AI开发环境Antigra vity已集成Gemini 3.5 Flash。一个震撼的案例是,借助新模型,Antigra vity仅用12小时就搭建了一个操作系统内核,而整个过程的AI API成本竟控制在1000美元以内。

截屏2026-05-20 01.29.44.png

图片来源:Google

更具碘伏性的是,Google甚至利用Antigra vity和Gemini 3.5 Flash重构了其核心产品——搜索的交互界面,提出了“生成式UI”的概念。目前,即便在搜索页面启用AI模式,其结果也大多以传统对话框的形式呈现。这对于简单问答尚可,但遇到“陀飞轮是如何工作的?”这类需要直观演示的复杂问题时,文本的局限性就暴露无遗。

截屏2026-05-20 01.44.46.png

图片来源:Google

新的解决方案是,面对复杂查询,搜索AI会运用“Vibe Coding”技术,动态生成一个包含交互元素的前端页面,让用户通过点击、拖拽等方式直接获得答案。这项功能预计在2026年夏季上线,并且它将作为Google搜索的免费更新提供,无需订阅Gemini高级服务。同时,Gemini App本身的界面也获得了更新,与Android的新视觉语言更加统一。

截屏2026-05-20 01.54.04.png

图片来源:Google

得益于3.5 Flash的多模态能力,搜索的输入和预测也得到增强。现在,除了文字和图片,用户可以直接上传视频或文档进行搜索。而传统的搜索建议框,也升级为基于AI理解的智能补全。

截屏2026-05-20 01.47.02.png

图片来源:Google

除了这些前台可见的变化,搜索智能体的“后台能力”也被大幅强化。全新的搜索Agent可以全天候运行,持续监控用户指定的信息。例如,你可以让它紧盯OpenAI、Anthropic等竞争对手的动态,一旦有重大新闻,立即通过邮件等方式推送,确保你不会错过任何热点。

说到智能体,Google正式发布了面向个人用户的新产品——Gemini Spark。与同类产品一样,它能7×24小时接管手机和浏览器。但其独特之处在于,Spark运行在一个专门的虚拟化环境中,安全性更高。它由Gemini 3.5 Flash和Antigra vity驱动,支持语音交互和后台响应,不仅能无缝调用Google Docs、日历、Gmail等自家服务,还能通过MCP协议与外部应用互联,实现更复杂的任务自动化。

截屏2026-05-20 01.58.41.png

图片来源:Google

虽然Google未明确公布其跨平台策略,但预计它将通过Gemini App登陆iOS,并以深度集成的方式进入Android系统。当Spark在后台运行时,Android系统会在屏幕左上角常驻一个状态标记(名为Android Halo),方便用户随时查看或跳转,其设计逻辑与当前的摄像头、麦克风使用提示类似。这看似是一个小功能,实则意味深长——它暗示着智能体在未来的移动体验中,将如同摄像头和传感器一样,成为系统级的基础设施。

截屏2026-05-20 01.42.25.png

图片来源:Google

桌面端方面,Gemini Spark将于今夏登陆Chrome浏览器。需要注意的是,与一些提供部分免费服务的国内AI智能体不同,Spark是一项完整的订阅功能,下周将率先面向Google AI Ultra订阅用户开放。

IMG_2080.png

图片来源:Google

值得一提的是,为了细化用户分层,Google在原有的AI Pro和AI Ultra套餐之间,新增了一个“青春版”AI Ultra等级,月费定为100美元。这背后反映出一个现实:即便强如Google,也难以完全承担全面AI化带来的巨额算力成本。AI的尽头是算力,而算力的尽头是真金白银的投入。未来,为高级AI服务付费,或许会像今天的手机话费一样,成为一项普遍的“刚性消费”。

截屏2026-05-20 01.35.49.png

图片来源:Google

音频眼镜首次登台,Gemini硬件生态日渐完善

去年,Google展示了带显示功能的AR眼镜原型。今年,其硬件生态补上了“音频版”智能眼镜这一环。需要澄清的是,这款Gemini音频眼镜并非简单的耳机替代品,它配备了摄像头,具备完整的AI视觉和多模态输入能力。

由于产品要等到2026年秋季才会发布(很可能为了适配高通新一代芯片),本次大会仅展示了外观和核心功能。设计上,Google选择了与三星及知名眼镜品牌Gentle Monster、Warby Parker合作。功能上,用户可通过语音或镜腿上的触控板唤醒Gemini。

IMG_2094.png

图片来源:Google

凭借底层模型和Spark智能体的能力,眼镜可以将用户的语音指令自动分解为一系列操作,并在手机后台执行。例如,用户可以说“买一杯上次点的咖啡”,手机上的Gemini便会自动打开咖啡应用、添加商品,并在用户语音确认(预计采用声纹验证)后完成支付。

IMG_2095.png

图片来源:Google

一个值得关注的细节是,Google宣布这款眼镜将同时支持Android和iOS平台。不过,在iOS严格的沙盒机制下,其在iPhone上的能力势必会受到一定限制。

为了进一步拓展Gemini的应用场景,Google Workspace办公套件也全面AI化。用户可以通过语音,让Gemini在Gmail中查找邮件,在Docs中辅助写作,甚至在Google Pics中生成图像。

截屏2026-05-20 01.07.24.png

图片来源:Google

结合此前曝光的搭载Gemini的高端“Googlebook”笔记本,可以看出,Google正不遗余力地将Gemini注入其所能触及的每一个硬件生态位。

主题演讲至此结束。表面上看,这似乎是Google在AI竞赛中后发制人的一次“画饼”。但深入分析,Google I/O 2026所揭示的,恰恰是Google终于找到了属于AI时代的正确打开方式。

例如,针对“AI交互该如何进行”这个根本问题,Google敢于对自家的“摇钱树”开刀,用“生成式UI”打破了传统AIGC“回合制”的单向交互模式。这种从单向到双向的转变,也延伸到了硬件领域。过去,AI硬件常常是“硬件归硬件,AI归AI”,两者结合生硬。而现在,Gemini 3.5 Flash的多模态能力,让音频眼镜等设备真正成为了Gemini感知世界的“物理器官”。

IMG_2082.png

图片来源:Google

更重要的是,Gemini正在利用其在Android系统中的底层优势,构筑一道其他厂商难以逾越的护城河。当其他AI智能体还在应用沙盒的边界外徘徊,依靠协议艰难地进行跨应用协同时,Gemini已经凭借系统级权限,实现了原生级的无缝互通。

回看开头提到的,Google手握的多个生态入口——Gemini、YouTube、搜索、Android。在I/O 2026上,这些曾经四处“开花”的生态,终于迎来了“结果”的季节,它们被AI紧密地编织成了一张大网。

当然,这套高度依赖Google自有生态的打法,对OpenAI等对手是挑战,但对国内AI企业而言,或许也指明了另一种机遇。Gemini的全家桶模式在国内难免“水土不服”,但其“多模态交互+系统级集成+全天候智能体”的核心逻辑,却极具参考价值。海外有Google在原生安卓底层破局,国内厂商同样可以在深度定制的系统里,构建自己的AI生态王国。更何况,国内品牌在智能体场景落地的“内卷”程度和本地化深度,往往比原生系统更为激进和接地气。

Google I/O 2026,可以看作是Google亮出了Gemini的底牌。接下来,就看国内外的玩家们,如何接招与破局了。

来源:https://www.leikeji.com/article/76871
上一篇DeepSeek挑战Claude:中国AI编程模型对标美国巨头 下一篇分布式智能与系统规划推动AI规模化 智能手机成关键锚点
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。