首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
谷歌I/O大会亮点解读 两大AI模型发布与音频眼镜亮相

谷歌I/O大会亮点解读 两大AI模型发布与音频眼镜亮相

热心网友
81
转载
2026-05-20

北京时间2026年5月20日凌晨,备受全球开发者与科技爱好者瞩目的Google I/O年度开发者大会正式启幕。与往年不同,由于Android 17的核心功能已通过The Android Show提前揭晓,人工智能(AI)毫无争议地成为了本届大会的绝对焦点与核心叙事。

然而,谷歌的AI战略远不止于发布更强大的模型。凭借其掌控的Gemini、YouTube、搜索引擎以及Android操作系统等庞大生态入口,谷歌本届大会的核心议题清晰无比:如何将AI深度、无缝地整合进其全系产品与服务中,从而为用户构建一个真正智能、连贯且高效的数字化体验闭环。

Gemini Omni与Gemini 3.5:迈向全能多模态的模型进化之路

在基础模型层面,谷歌正式推出了号称迄今为止能力最全面的Gemini Omni。其核心突破可以概括为:能够理解并处理任意模态的输入信息,并生成任意形式的输出内容。更为关键的是,用户可以在内容生成过程中,通过自然对话实时地对细节进行编辑与调整。

图片来源:Google

以创作一段音乐短视频(MV)为例,用户只需提供背景音乐、视频片段、图片素材以及简单的画面描述,Gemini Omni就能直接合成一段完整的短片。现场演示了一个更令人惊叹的场景:在一张白纸上手绘一个简单的圆圈,辅以文字指令,模型便能生成一段包含该圆圈元素的复杂特效视频。如果对视频中的某个元素不满意,用户只需像日常对话一样提出“把玻璃建筑换成肥皂泡”,模型便能精准执行替换,而新生成的肥皂泡甚至具备逼真的物理材质与碰撞效果。

图片来源:Google

用谷歌自己的比喻来说,Gemini Omni堪称“视频创作领域的Nano Banana”。据悉,Gemini Omni Flash版本将即刻在Gemini App、Google Flow和YouTube Shorts等平台上线,面向开发者的相应API则会稍后开放。

图片来源:Google

除了这位“全能型选手”,Gemini模型家族也迎来了重要版本更新——Gemini 3.5 Flash。相比前代的Gemini 3.1 Pro,新版本在代码生成、现实环境中的智能体任务执行以及大规模工具调用等多项基准测试中均表现出显著提升。当然,有轻量高效的Flash版本,就必然有性能更强大的Pro版本。谷歌在会上预告,更强大的Gemini 3.5 Pro将于下个月正式亮相。

总而言之,在AI模型能力的展示上,谷歌此番将“功能多、响应快、质量好、成本省”四大优势展现得淋漓尽致。

Google Antigra vity与Gemini Spark:构建更智能、更强大的AI智能体生态

底层模型能力实现飞跃,基于其构建的AI智能体(Agent)自然也迎来了全面升级。

图片来源:Google

面向开发者,谷歌的AI集成开发环境Antigra vity现已全面集成Gemini 3.5 Flash。一个极具说服力的案例是,借助新模型的能力,Antigra vity仅用12小时就成功构建了一个可运行的操作系统内核,而整个开发过程的AI API调用成本还不到一千美元。

图片来源:Google

谷歌甚至利用这套强大的工具链重构了搜索引擎的交互界面,提出了“生成式UI”这一革命性概念。以往,即便在搜索中启用AI功能,其结果也大多以传统的对话文本框形式呈现。这对于简单问答尚可,但面对“陀飞轮的工作原理是怎样的?”这类需要动态、直观演示的复杂问题时,纯文本的局限性便暴露无遗。

图片来源:Google

为此,谷歌基于Antigra vity的自动化编程能力,打造了一个能够自适应问题复杂度、自动生成交互式界面的AI搜索引擎。简而言之,当系统识别到复杂查询时,会通过“Vibe Coding”技术即时生成一个包含可交互组件的前端页面,让用户通过点击、拖拽等直观操作直接探索并获得答案。

图片来源:Google

这项创新功能预计在今年夏季向所有用户开放,并且作为谷歌搜索的核心更新,无需订阅Gemini高级服务即可使用。同时,Gemini App本身的用户界面也获得了全新设计,与Android系统的新视觉语言更加协调统一。

得益于Gemini 3.5 Flash强大的多模态理解能力,谷歌搜索的输入与预测方式也得到了极大扩展。现在,用户不仅可以输入文字和图片,还能直接上传视频片段或整个文档进行搜索;而传统的搜索关键词推荐排序,也升级为基于Gemini 3.5 Flash的AI智能补全与意图预测。

图片来源:Google

除了前台的交互革新,搜索智能体的“后台持续服务能力”也被大幅强化。全新的搜索Agent可以设置为7×24小时全天候运行,持续监控用户指定的信息源或主题。例如,用户可以命令它紧盯OpenAI、Anthropic等竞争对手的最新动态,一旦有重大产品发布或新闻,便立即通过邮件、通知等方式推送提醒。

谈及智能体,谷歌此次还发布了面向个人用户的全新AI助手——Gemini Spark。与其他AI助手类似,它能全天候接管用户的手机和浏览器,执行复杂任务。但其核心差异在于,Gemini Spark运行在一个经过特殊加固的虚拟化安全环境中,在提供强大功能的同时,确保了更高的隐私与数据安全性。

图片来源:Google

毫无疑问,Gemini Spark同样由Gemini 3.5 Flash和Antigra vity环境驱动,支持语音交互与后台静默响应。在生态联动上,它不仅能与Google Docs、Calendar、Gmail等自家服务无缝协作,还能通过MCP(Model Context Protocol)协议与外部第三方应用程序互联,实现跨平台、跨应用的复杂任务自动化。

谷歌暂未公布Gemini Spark详细的全球适配路线图,预计其将通过Gemini App(iOS平台)和深度集成的谷歌搜索组件(Android平台)形式登陆移动设备。

图片来源:Google

当任何AI智能体(无论是前台助手还是后台Agent)在运行时,Android系统将新增一个名为“Halo”的功能,在屏幕左上角常驻一个轻量级状态标记,方便用户随时查看任务状态或快速跳转控制,其设计逻辑类似于当前系统的摄像头或麦克风使用指示灯。这个看似微小的系统级改动,实则暗示了AI智能体地位的革命性提升:它已不再是普通的应用程序功能,而是与摄像头、麦克风、GPS同等级别的手机核心系统组件。

图片来源:Google

在桌面端,Gemini Spark将于今年夏季正式登陆Chrome浏览器。需要特别注意的是,Gemini Spark是一项需要订阅的高级功能,下周将率先向Google AI Ultra套餐订阅用户开放体验。

值得一提的是,为了更精细地区分企业用户和高用量个人用户的需求,谷歌在原有的AI Pro(20美元/月)和AI Ultra(250美元/月,限时优惠价200美元/月)之间,新增了一个“青春版”的AI Ultra等级,定价为100美元/月。

图片来源:Google

这一定价策略的细化透露出一个明确的市场信号:即便是谷歌这样的科技巨头,也难以长期承受全面AI化所带来的巨额算力与运营成本。AI发展的尽头是算力需求,算力的尽头是硬件基础设施,而这一切的尽头,终究是持续的资金投入。在AI时代,互联网公司仅依靠硬件销售或基础服务订阅来覆盖高昂AI成本的传统商业模式正面临严峻挑战。

甚至可以预见,随着AI Agent能力不断扩展并深入日常生活,为高级AI服务支付订阅费用,很可能像如今为移动数据流量和云存储付费一样,成为一项普遍且必要的“数字生活刚性消费”。

音频眼镜亮相,Gemini软硬件生态闭环加速成型

去年,谷歌曾展示过一款具备显示功能的AI眼镜原型。今年,其“音频版”智能眼镜也首次登台亮相。需要明确的是,这款Gemini音频眼镜并非简单的无线耳机替代品,而是配备了摄像头、具备AI视觉识别与多模态输入能力的全天候智能音频设备。

由于产品要等到今年秋季才会正式发布(很可能为了适配高通骁龙峰会发布的新一代芯片),谷歌并未透露其重量、传感器具体型号、续航时长等详细参数,仅重点展示了其外观设计与核心功能场景。

图片来源:Google

在设计合作上,谷歌宣布将与三星及Gentle Monster、Warby Parker等知名眼镜品牌展开合作。功能方面,它与市面上的一些AR眼镜有相似之处,用户可以通过语音指令或轻触镜腿上的触控板随时唤醒Gemini助手。

借助底层Gemini模型和Spark智能体的强大能力,Gemini眼镜能够将用户的自然语言指令自动分解为一系列可执行的操作步骤,并在配对的手机后台自动完成。例如,用户可以直接对着眼镜说“帮我买一杯上次点过的冰美式”,手机上的Gemini智能体便会自动打开相应外卖App、定位商品、加入购物车,并在用户进行语音确认(预计采用声纹验证技术以确保安全)后完成支付。

图片来源:Google

值得一提的是,谷歌确认Gemini音频眼镜将同时支持Android和iOS两大移动平台。不过,受限于iOS系统严格的沙盒机制与应用间隔离策略,其在iPhone上的功能体验与自动化程度预计将大打折扣。

为了进一步拓展Gemini的应用场景,谷歌办公套件(Google Workspace)也宣布全面接入AI能力。用户可以通过语音指令让Gemini查找历史邮件、辅助文档写作、制作幻灯片,甚至根据描述生成配图。

图片来源:Google

结合此前曝光的全新高端“Googlebook”笔记本,谷歌正不遗余力地将Gemini AI深度嵌入其所能掌控的每一个硬件与软件生态节点之中,从手机、眼镜到电脑,从搜索、办公到内容创作,构建一个无处不在的AI体验网络。

主题演讲至此告一段落。或许有人会认为,这不过是谷歌在激烈AI竞赛中后发制人的又一次“战略画饼”。但深入剖析,Google I/O 2026所清晰揭示的,恰恰是谷歌终于找到了开启AI时代下一阶段大门的正确钥匙——生态整合与原生体验。

以“AI究竟能做什么”这个根本问题为例,谷歌直接向其“发家之本”搜索引擎开刀,用生成式UI彻底改变了AIGC“一问一答”的回合制单向交互模式。这种从单向输出到双向交互的范式转变,同样淋漓尽致地体现在Gemini智能硬件的发展路线上。过去,AI硬件赛道长期存在“硬件归硬件,AI归AI”的软硬割裂现象。而如今,Gemini 3.5 Flash的强大多模态感知与生成能力,正让音频眼镜等设备成为Gemini感知物理世界、执行现实任务的“自然延伸器官”。

图片来源:Google

更重要的是,Gemini正利用其在Android操作系统中的深度集成与原生优势,构筑起一道其他厂商在短期内难以逾越的生态护城河。当其他AI智能体还在应用沙盒的边缘艰难尝试有限的跨应用协同时,Gemini已经在Android系统底层实现了流畅无阻、权限更高的原生级互通与自动化。

回到开头提到的核心优势:谷歌同时掌握着AI模型(Gemini)、内容平台(YouTube)、流量入口(搜索)和操作系统(Android)这四大生态入口。在Google I/O 2026上,这些过去各自“开花”的独立生态,终于通过AI的脉络紧密相连,迎来了协同“结果”的爆发季节。

当然,Gemini的高度成功也深度捆绑于谷歌生态,这对OpenAI、Grok等海外竞争对手构成了巨大挑战,但对于深耕本土化市场的中国AI科技企业而言,或许也意味着独特的战略机遇。

毫无疑问,Gemini全家桶在海外市场即便再如何所向披靡,其以GMS(谷歌移动服务)为核心的应用生态在国内市场仍面临“水土不服”的客观困境。然而,它所成功验证的“多模态自然交互+原生系统深度集成+全天候智能体服务”这一业务逻辑与发展方向,为国内同行指明了清晰的赛道:

海外有谷歌在安卓原生系统底层大刀阔斧地整合,国内各大手机厂商同样可以在其深度定制的安卓系统(如MIUI、ColorOS、HarmonyOS等)内,凭借对用户需求的深刻理解,打造属于自己的“AI生态独立王国”。更何况,中国品牌在AI智能体的场景落地、本地化服务创新以及响应速度上,往往展现出比原生安卓更为激进和接地气的优势。谷歌已经亮出了Gemini生态整合的底牌,接下来,就看国内AI巨头与头部手机厂商如何强强联手,在这场决定未来的生态之战中破局而出,打造中国特色的AI体验了。

来源:https://36kr.com/p/3816765912883200
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌Gemini Spark智能体发布 一句话指令让AI同时处理多项任务
AI
谷歌Gemini Spark智能体发布 一句话指令让AI同时处理多项任务

今天凌晨的谷歌I O开发者大会,带来了令人振奋的重磅发布。谷歌正式推出了名为Gemini Spark的个人AI智能体,这不仅仅是一个简单的聊天机器人,更是一个能够同时处理多项任务的智能副手,真正实现了“一句话让AI干几份活”的高效体验。 Gemini Spark的核心设计理念是极致的用户导向:一切听

热心网友
05.20
谷歌三星联手推出两款智能眼镜集成Gemini AI支持语音导航
科技数码
谷歌三星联手推出两款智能眼镜集成Gemini AI支持语音导航

谷歌与三星合作推出两款智能眼镜,整合GeminiAI,支持语音导航与实时翻译。眼镜设计分为时尚与经典两种风格,旨在提供免手持的信息服务,如路线指引、附近推荐与通知整理。产品预计秋季上市,具体售价待公布。

热心网友
05.20
谷歌与三星发布两款智能眼镜:集成Gemini AI并支持语音导航
科技数码
谷歌与三星发布两款智能眼镜:集成Gemini AI并支持语音导航

谷歌与三星在I O大会上展示了两款智能眼镜原型,由GentleMonster和WarbyParker分别设计。眼镜整合GeminiAI,作为手机伴侣提供免手持交互,支持语音导航、个性化推荐、订单下达及通知摘要。其实时翻译功能可处理对话与视觉文字,并贴近原声音质。两款设计风格各异,瞄准不同用户。价格未定,传闻约379至499美元,预计秋季上市。

热心网友
05.20
谷歌Gemini 3.5系列AI模型正式发布
科技数码
谷歌Gemini 3.5系列AI模型正式发布

谷歌于5月20日正式发布Gemini3 5Flash模型,定位为当前最快、最高效的模型,旨在满足需要即时响应的现实场景。该轻量级模型致力于帮助用户处理日常事务与多步骤创意项目,应对各种复杂性并快速将想法转化为行动。

热心网友
05.20
谷歌Gemini 3.5系列模型正式发布
科技数码
谷歌Gemini 3.5系列模型正式发布

谷歌发布Gemini3 5Flash模型,强调其是目前最快、最高效的AI模型,旨在应对现实场景中需要快速响应和多步骤处理的复杂任务。该模型注重轻量化与高性能的平衡,针对实时对话、内容摘要等高频率需求优化,以提升用户体验并控制成本。此举加剧了中端AI市场的竞争,推动AI工具向更高效、更易用的方向发展。

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

异人之下手游陆瑾连招技巧 安卓版技能玩法教学
游戏攻略
异人之下手游陆瑾连招技巧 安卓版技能玩法教学

陆瑾是《异人之下》手游中操作门槛较高的角色,主打中近距离压制。其核心在于普攻攒炁,并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守,成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判,形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机,分别用于破防与针。

热心网友
05.20
欧易投资策略指南:新手如何制定稳健的Web3投资计划
web3.0
欧易投资策略指南:新手如何制定稳健的Web3投资计划

投资策略需要明确目标与风险偏好,合理分配资金。通过研究项目基本面、关注市场周期与情绪,建立多元化组合。执行中需设定清晰的买卖规则,利用工具辅助决策,并保持长期视角与纪律性,避免情绪化操作。定期复盘与调整是策略持续有效的关键。

热心网友
05.20
异人之下手游巴伦技能强度解析与安卓实战教程
游戏攻略
异人之下手游巴伦技能强度解析与安卓实战教程

巴伦是《异人之下》手游中的近战压制型角色,核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅,“极速连斩”可追击倒地目标,“飞身十字固”抓取伤害高,“逆势突围”用于防守反击。角色操作上限高,需练习掌握连招循环,但对战远程角色时较为吃力。

热心网友
05.20
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线
AI
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线

谷歌宣布Gemini3 5Pro模型下月发布,已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布,更多信息将于下月揭晓。

热心网友
05.20
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能
AI
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能

谷歌在2026年I O大会上推出月费100美元的新AI订阅计划,旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队,提供比基础版更强的性能,同时避免企业级的高昂成本,以竞争中高端市场。

热心网友
05.20