谷歌AI Agent全家桶发布智能体应用全面升级_AI热点日报

谷歌AI Agent全家桶发布智能体应用全面升级

类型：热点整理2026-05-20

谷歌I O大会聚焦智能体生态，推出Gemini3 5Flash等模型，强调高性价比与多模态能力。搜索迎重大升级，支持多模态输入并集成AI购物助手。个人智能体GeminiSpark可全天候处理任务，Antigravity平台则支持多智能体协作。硬件方面推出智能眼镜。整体策略转向构建覆盖多场景的智能体操作系统。

北京时间5月20日凌晨，2026年的谷歌I/O开发者大会如期拉开帷幕。自2008年首次举办以来，这场年度盛会早已超越了单纯的技术发布，成为谷歌展示其技术肌肉、并预示行业未来风向的关键舞台。

今年的议程节奏极快，近两个小时的信息密度几乎让人喘不过气。谷歌CEO桑达尔·皮查伊在开场便抛出一个震撼的数字：每月3200万亿Token。这是谷歌全平台当前的AI处理量。要知道，两年前这个数字是9.7万亿，去年是480万亿。短短一年，规模翻了近七倍。这个数字本身，就是谷歌AI产品已被大规模采用的最有力证明。

那么，这场信息爆炸的发布会究竟讲了些什么？我们先来快速梳理一下核心要点：

模型层面：Gemini 3.5 Flash成为焦点，其输出速度号称达到同类前沿模型的四倍，而成本却不到一半，现已作为Gemini App和搜索的默认引擎。全新的Gemini Omni则支持图文音视频的混合输入，并能生成可编辑的视频内容，甚至允许用户指定镜头和拍摄角度。备受期待的Gemini 3.5 Pro预计在6月发布，目前正处于内测阶段。

搜索与购物：诞生25年的搜索框迎来了史上最大改版，支持文本、图片、视频、文件等多模态输入。Universal Cart（通用购物车）则试图打通搜索、YouTube、Gmail，打造一个跨平台的AI购物助手，Nike、Walmart等品牌已首批接入。

智能体（Agent）：Gemini Spark作为24小时在线的个人智能体登场，可在云端持续运行。而Antigra vity平台升级至2.0版本，进化为一个多智能体编排平台，其应用场景已全面跳出编码辅助，直接与Claude Code、Codex等工具展开竞争。

硬件与订阅：由三星制造的Android XR音频眼镜将于今秋上市，兼容iOS系统，并与Gentle Monster、Warby Parker等眼镜品牌合作设计。纯音频版今年秋季推出，带显示屏的版本则要等到明年。订阅方案也有调整，新增了100美元/月的Ultra档位，原顶级Ultra plan降至200美元/月，Pro版维持19.99美元/月不变。

纵观整场发布会，谷歌似乎有意避开了单纯的参数竞赛，而是将最多的篇幅留给了“智能体”。这背后，究竟释放了哪些值得玩味的信号？

01. 谷歌的模型，不再只追求“最强”

第一个重要信号，其实从芯片层就开始了。谷歌提出了第八代TPU的“双芯”战略，将训练与推理任务拆分开来，由专攻训练的TPU 8t和聚焦推理的TPU 8i各司其职。

TPU 8t单个Pod可容纳9600颗芯片，集群总算力高达121 ExaFLOPS，相比前代Ironwood提升约3倍，性价比则提升了2.7倍。这种可扩展至百万级芯片的集群设计，旨在将大模型的训练周期从数月压缩至数周。而TPU 8i则专注于低延迟推理，其推理性价比提升80%，大缓存设计能显著减少内存访问延迟，以满足像Gemini 3.5 Flash这类模型的高并发推理需求。

谷歌大会上，介绍芯片性能

这种训练与推理分离的设计，对应的是谷歌在AI Agent生态上的宏大布局。它不仅是算力基础设施的强化，更标志着全球AI芯片竞争进入了更专业化、更精细化的新阶段。

有了强大的基建，模型自然也要跟上。虽然万众期待的Gemini 4.0并未现身，但推出的Gemini 3.5 Flash和Gemini Omni，恰恰揭示了谷歌当前的产品逻辑：不再一味追求“地表最强”的单一模型，而是让不同的模型精准服务于不同的商业场景。

Gemini Omni被定位为“能从任何输入生成任何输出”的多模态系统，它以视频生成和编辑为突破口，试图将文本、图像、音频和视频统一在同一个创作流程中。

现场演示Gemini Omni创作的视频

它的核心亮点在于对物理世界规律的理解能力，这意味着它能够更准确地预测场景中应该发生什么。当用户用自然语言编辑视频时，角色的一致性、物理逻辑乃至场景记忆都能保持连贯。

而Gemini 3.5 Flash则主打“又快又省”。它在几乎所有基准测试上都超越了三个月前的旗舰模型Gemini 3.1 Pro。一个定位中端的模型能够全面碾压上一代旗舰，这在行业内并不多见。其输出速度号称是其他前沿速度模型的4倍。

介绍Gemini 3.5 Flash性能

价格更是其杀手锏：每百万输入token定价1.5美元，输出为9美元。横向对比，Claude Sonnet 4.6的输入价格是3美元，输出是15美元。这意味着Gemini 3.5 Flash的整体定价低了40%到50%。性能追平甚至超越竞品旗舰，价格却只要一半，其市场意图不言而喻。

此外，谷歌还在持续推进SynthID数字水印技术，并宣布与OpenAI、ElevenLabs等公司携手推动内容凭证的透明化标准。这显然是对当前AI生成内容泛滥、难以监管这一行业难题的直接回应。

总结来看，TPU 8的训练推理分离，解决的是底层算力的成本与效率结构问题。Gemini 3.5 Flash的高性能低价格，解决的是智能体未来规模化部署的性价比门槛问题。而Omni切入创作者经济，则是为了巩固谷歌在内容生成市场的存在感。这也解释了为什么谷歌敢于把3.5 Flash做得如此“实惠”——它要的或许不是模型本身的利润，而是以模型为入口，最终撬动整个智能体经济的庞大生态。

02. 搜索的“变形记”：长出智能体与购物车

模型的迭代，最终要落到产品体验上。这次变化最大的产品，莫过于谷歌搜索——官方称之为“25年来的最大升级”。

过去的搜索逻辑很简单：输入关键词，输出网页链接。现在，一切都变了。输入端不仅能理解更长、更口语化的查询意图，更能接受图片、文件、视频乃至Chrome标签页的直接“投喂”。

谷歌大会上，演示AI搜索

驱动搜索AI概览（AI Overviews）的引擎已升级为Gemini 3.5 Flash，并面向全球用户上线，月活突破10亿。带来的体验是，你问一个问题，不仅能得到AI生成的概览答案，还能在同一页面内无缝追问，上下文全程保留。

但真正改变搜索性质的，其实是输出端。谷歌将Antigra vity 2.0背后的智能体编程能力注入了搜索，推出了Generative UI（生成式用户界面）。这意味着，Gemini 3.5 Flash在理解你的问题后，可以动态规划回答方案，并实时生成交互式界面、图表等个性化结果。

这种能力甚至开始向周期性任务延伸。用户用自然语言描述需求，搜索就能打造个性化的小型应用，它能接入实时天气、读取日历、了解饮食偏好，自动生成带链接的完整计划，生成的应用还能分享给他人。

至此，搜索已经从“回答问题”的工具，进化成了“执行任务”的助手。谷歌将这套逻辑推向的第一个商业场景，就是购物。

谷歌大会上，介绍购物功能

Universal Cart（通用购物车）是一个跨商家、跨平台的AI购物车，横跨搜索、Gemini App、YouTube和Gmail。它能在后台自动追踪商品降价、分析历史价格曲线、智能提醒补货。整个体系构建在Google Wallet之上，能自动识别并应用你的支付方式权益和商家优惠。目前，Nike、Target、Walmart等大型零售商已首批接入结算功能。

AI购物已接入结算功能的商家

购物车能跨平台运作，底层依靠的是Universal Commerce Protocol这一开放标准。而配套的Agent Payments Protocol则解决了支付安全问题，它允许用户为智能体设定支付边界（如指定品牌、品类、预算上限），并通过加密凭证在用户、商家、支付方之间建立可追溯的信任链条。

谷歌在购物领域的尝试已超过十年，从Google Shopping到Buy on Google，都未能形成闭环。Universal Cart的逻辑则截然不同：它不再试图成为另一个电商平台，而是选择嵌入用户购物决策的全链路，成为无处不在的“购物大脑”。

Workspace套件的更新同样密集，其核心逻辑是让语音成为新的交互入口。Gmail Live可以用语音查询收件箱；Docs Live则能将口述内容直接组织成结构化文档，并在授权后从Gmail、Drive等地方抓取相关信息来充实内容。

现场演示AI音乐创作成果

把这些分散在各处的变化放在一起看，底层的趋势是统一的：谷歌正试图将其旗下所有高频产品，都改造成能让AI替用户执行任务的智能体入口。

03. Agent全家桶：谷歌的“操作系统”野心

事实上，2026年谷歌I/O最想讲的核心故事，就是智能体（Agent）。

全新推出的Gemini Spark被明确定义为“个人AI智能体”。它可以7×24小时在云端待命，替你阅读邮件、查询日程、撰写汇报、追踪项目进度、发送提醒，即使你关闭了应用窗口，它也不会停止工作。

谷歌推出Gemini Spark，即个人AI智能体

Spark运行在Google Cloud的专属虚拟机上，由Gemini 3.5 Flash驱动，底层则依托Antigra vity的智能体调度框架。首发阶段，它已接入Gmail、Docs等核心应用，未来计划扩展到超过30个合作伙伴。它的入口也不限于Gemini App，今年夏天就将入驻Chrome浏览器，让你在任何网页上都能随时召唤它。

演示Gemini Spark如何操作

为了让智能体的存在感更直观，谷歌还推出了Android Halo——一个嵌入Android 17状态栏的视觉指示器，以微妙的光圈动画实时显示Agent的工作状态。用户无需打开任何App，就能知道Spark正在后台忙些什么。

配合Spark的发布，谷歌也调整了订阅体系，新增了100美元/月的Ultra档位，旨在吸引那些需要智能体服务但无需顶配资源的用户；同时将原顶级Ultra档位的月费从250美元降至200美元。

但谷歌的野心远不止于消费者端。Antigra vity 2.0作为面向开发者的Agent基础设施，已从一个集成开发环境（IDE）中的编码助手，蜕变为一个独立的多智能体编排平台。开发者可以同时部署多个并行工作的子智能体来处理不同任务，设置后台定时任务，甚至用语音指挥它们。智能体能够自行拆解复杂工作流，并分配给合适的“子同事”去完成。

谷歌大会上，介绍Antigra vity 2.0性能

谷歌在现场展示了一个令人印象深刻的案例：在约12小时内搭建一个能运行的操作系统核心框架。期间启动了93个子智能体，处理了数十亿Token，而总计算成本不到1000美元。

展示Antigra vity 2.0制作的游戏

硬件层面，由三星和高通制造、与Gentle Monster等潮牌合作的Android XR智能眼镜，则提供了另一个维度的入口。它兼容Android和iOS，旨在成为智能体在现实世界中的语音和视觉输入端。

谷歌大会上，智能眼镜也是一大亮点

至此，谷歌的蓝图变得清晰：它想打造的是一整套智能体操作系统。开发层有Antigra vity 2.0这样的多智能体编排框架；手机端有Android Halo这样的状态感知界面；而用户脸上，则有XR眼镜作为自然的交互入口。

当然，智能体面临的最大悖论在于，其价值完全取决于用户的信任，而信任又建立在可靠性的基础上。因此，谷歌选择让Spark在执行高风险操作前必须征得用户确认，其详细的“思考轨迹”对用户可见，并且随时可以被中断。

回看整场I/O大会，谷歌这次没有拿出一个令业界惊叹的“核弹级”新模型，但它所做的一切反而更实际，也更具野心。Omni负责感知和理解物理世界，Spark负责生成和沟通，而背后的Agent网络则负责7×24小时地执行。

谷歌手握TPU集群、全球数据中心、安卓生态、搜索入口以及强大的广告变&现机器。它不需要在每一个单点技术上争当第一，只要做到足够好用、足够便宜、并且能渗透到数字生活的每一个角落，这就是它最坚固的护城河。

无论如何，谷歌这艘大船，已经朝着智能体时代的方向全速前进了。

来源：https://36kr.com/p/3817321803931910

发布会

延伸阅读

补充最近整理过的热点入口。