Google I/O 2026所有发布内容完整盘点

时间：2026-06-06 16:19

谷歌I O2026发布多款AI:Gemini3 5Flash提速降本,Omni视频生成,反重力2 0与Spark亮相,搜索新增Agent及生成式UI 月处理token超3 2千万亿,用户增长显著

距离上一届 Google I/O 大会又过去了一年。

Google CEO 在开场便奠定了大会基调：过去一年，AI 行业迈入了全新阶段，人们不再仅仅关注技术本身，而是更期待看到人工智能真正为日常产品带来实际价值。Google 给出的答案，正是今天这场发布会所展示的一切。

衡量 AI 应用规模，token 是一个直观指标。两年前，Google 旗下各产品每月处理的 token 总量为 9.7 万亿。去年 I/O 时，这一数字增长到约 480 万亿。今年则直接跃升至每月超过 3.2 千万亿，增长约 7 倍。

开发者和企业侧的数据同样亮眼：每月使用 Google 模型构建应用的开发者超过 850 万；模型 API 目前每分钟处理约 190 亿 token；过去 12 个月，超过 375 家 Google Cloud 客户各自处理了超过 1 万亿 token。Google 目前有 13 款产品月活用户超过 10 亿，其中 5 款超过 30 亿。

搜索依然是覆盖范围最广的 AI 产品入口。AI Overviews 月活已超过 25 亿。AI Mode 作为搜索功能有史以来最大的升级，上线仅一年月活就突破 10 亿，用户的使用方式也在发生变化——从单次查询逐渐演变为持续对话。

Gemini 应用去年 I/O 时月活 4 亿，今年已超过 9 亿，翻了一倍多，日请求量增长超过 7 倍。其中 Nano Banana 图像生成模型已累计生成超过 500 亿张图片。

Google一口气发了多少东西？I_O 2026完整梳理

产品更新：让 AI 渗透进日常工具

Ask YouTube

YouTube 上虽有海量视频，但找到真正相关的内容并不容易。Ask YouTube 重新设计了这一体验，不仅展示匹配的视频，还会直接跳转到视频中最相关的片段。目前该功能已开始测试，今年夏天将在美国全面推出。

Docs Live

Google Docs 新增语音功能 Docs Live。以往使用 Gemini 写文档需要输入明确指令，现在只需对着麦克风把想法说出来，Gemini 会自动整理成文档。未来还将支持直接用语音新建和编辑文档。Docs Live 今年夏天向订阅用户推出，同期 Gmail 和 Keep 也将加入语音功能。

Ask Maps

谷歌地图迎来十年来最大升级，其中包括 Ask Maps 功能，支持更复杂、更长的提问。

基础设施：为 AI 规模运转提供底气

支撑这些产品规模化运转，需要大规模基础设施投入。2022 年，Google 每年的资本支出是 310 亿美元。今年预计达到约 1800 亿至 1900 亿美元，大约是当年的 6 倍。

芯片层面，Google 在 Cloud Next 上发布了第八代 TPU，首次采用双芯片策略，训练和推理各有专属架构：

TPU 8t 用于大规模预训练，原始算力约为上一代的 3 倍。结合 JAX 和 Pathways，训练不再受限于单个数据中心，可以跨多个站点分布式训练，全球可调用超过 100 万块 TPU，构成全球最大训练集群。模型训练时间从数月缩短到数周。

TPU 8i 专为推理设计，在速度上做了全面优化。两款芯片的能效均比上一代提升约 2 倍。

Gemini Omni：多模态世界模型

AI 正在从预测文字转向模拟现实。Gemini Omni 是 Google 新发布的多模态世界模型，可以接受任意模态的输入，生成任意模态的输出。首发版本以视频输出为主，后续会支持图像和文字。Gemini Omni Flash 今天起可以在 Gemini 应用、Google Flow 和 YouTube Shorts 上体验，开发者和企业客户也将在未来几周通过 API 获得访问权限。

1）用自然语言编辑视频。Omni 支持通过对话逐步编辑视频，每一条指令都建立在上一条的基础上，角色保持一致，物理规律成立，场景前后连贯。

2）物理理解与世界知识。Omni 对重力、动能、流体动力学等物理规律有更准确的直觉理解，生成的场景物理表现更真实。同时，它还能调用 Gemini 的历史、科学和文化背景知识，把语言、图像和含义连接起来，而不只是模式匹配。

3）任意输入组合。Omni 支持把图片、文字、视频、音频同时作为参考输入，生成统一风格的输出。

4）数字 A vatar。用户可以用 Omni 创建自己的数字 A vatar，生成看起来和听起来都像自己的视频。在修改视频中的音频和语音方面，Google 表示还在测试中。

不过有网友初步测试发现，Omni 的视频生成效果和 Seedance 2.0 相比仍有差距。

Gemini 3.5 Flash：更快、更便宜、更强

Google 今天推出 Gemini 3.5 Flash，定位为将前沿智能与行动能力相结合的新一代模型。

与 3.1 Pro 相比，3.5 Flash 在多项基准测试上领先，具体包括：Terminal-Bench 2.1（76.2%）、GDPval-AA（1656 Elo）和 MCP Atlas（83.6%），在多模态理解上 CharXiv Reasoning 达到 84.2%。其中 GDPVal 专门衡量现实世界中具有经济价值的任务，进步尤为明显。速度方面，输出 token 每秒是其他前沿模型的 4 倍，在 Antigra vity 中快 12 倍——达到 800 tokens/秒。

3.5 Flash 配合 Antigra vity 可以调度多个子 Agent 协同工作，处理规模化的复杂任务。前端生成能力依旧非常能打，在多模态基础上，3.5 Flash 还能生成更丰富的交互式网页 UI 和图形，比如直接在 AI Studio 中为一篇研究论文生成交互式动画。

价格方面，3.5 Flash 的成本不到同等前沿模型的一半。Google 给出了一个估算：头部企业每天处理约 1 万亿 token，如果将 80% 的工作负载从其他前沿模型切换到 3.5 Flash，每年可以节省超过 10 亿美元。

Gemini 3.5 Flash 今天起对所有用户和 API 开放。Gemini 3.5 Pro 目前在 Google 内部使用，下个月推出。

Google 内部数据显示，借助 Antigra vity 平台和 3.5 Flash，AI 开发工具的 token 处理量从 3 月份的每天 5000 亿，已经翻倍增长至如今每天超过 3 万亿。

Antigra vity 2.0 与 Google Spark：Agent 时代的核心平台

Antigra vity 原本是一个 AI 编程环境，现在正在扩展为一个完整的自主 AI Agent 开发和管理平台。

Antigra vity 2.0 是一个新的独立桌面应用，作为 Agent 交互的中心，用户可以在其中协调各类 Agent 处理不同任务。在速度上，这个版本使用了专门优化的 Flash 版本，比其他前沿模型快 12 倍。值得一提的是，Antigra vity 2.0 和 Codex 在界面设计上非常相似。

Antigra vity 用户今天起可以开始体验。

Gemini 应用即将推出个人 AI Agent——Gemini Spark，在用户授权下代替用户在数字世界中采取行动。几个关键特点：运行在 Google Cloud 专用虚拟机上，7×24 小时持续运行，不需要保持电脑开着；由 Gemini 3.5 和 Antigra vity 驱动，可以在后台轻松处理长周期任务；从 Google 自有工具开始整合，未来几周通过 MCP 接入第三方工具；支持在 Gemini 应用中交互，未来也可以通过邮件和即时通讯使用；在 Android 上，可以通过新 UI 空间 Android Halo 查看 Agent 的实时进度，今年晚些时候上线；今年夏天晚些时候，Spark 将直接在 Chrome 中运行，成为跨网页的 Agent 浏览器。

本周起 Spark 向受信测试用户开放，下周 Beta 版向美国 Google AI Ultra 订阅用户推出。

搜索也在向 Agent 方向进化

搜索正在成为更主动、更智能的信息入口。

信息 Agent：用户可以设置个性化 AI Agent 在后台持续运行，在合适的时机主动找到所需信息并协助采取行动。今年夏天起向 Google AI Pro 和 Ultra 订阅用户推出。

生成式 UI：结合 Gemini 3.5 Flash 和 Antigra vity，搜索将为每个问题动态生成定制化界面，包括个性化布局和交互式视觉内容。今年夏天向所有用户免费开放。

持久化自定义看板：对于需要持续追踪的长期任务，搜索可以为用户构建专属看板或追踪工具，类似为特定任务定制的迷你应用。未来几个月起向美国 Google AI Pro 和 Ultra 订阅用户开放。

Daily Brief：Gemini 应用即将推出的开箱即用 Agent，整合收件箱、日历和任务，生成个性化的每日摘要，不只是汇总信息，还会做优先级排序、整理和下一步建议，以便于快速浏览的形式呈现。

Google Flow：今天向所有用户推出新 Agent，可以在用户参与和控制下规划并处理复杂任务。支持在 Flow 中直接 vibe code 各类创意工具，例如视频特效设计、手绘动画或文字叠加工具。

Google Pics：基于最新 Nano Banana 模型的 AI 图像创建和编辑工具。它将图片中每个元素视为独立对象而非平面图像，支持对特定细节进行精确创建、替换和调整。目前向受信测试用户开放，今年夏天晚些时候向 Workspace 中的 Google AI Pro 和 Ultra 订阅用户推出。

智能眼镜：去年初次亮相的 AI 眼镜产品有了更多细节，分为音频眼镜（耳机形态，语音提示）和显示眼镜（可显示信息）两种，均支持免提使用 Gemini。音频眼镜今年秋天率先上市。

Gemini for Science：面向科学研究的 AI 工具集，整合了 Gemini 的深度推理和研究能力、Deep Think 和 Deep Research，并新增了可以将 Antigra vity 等 Agent 平台连接到超过 30 个主要生命科学数据库和工具的 Science Skills。用户可以在 Google Labs 申请试用 Gemini for Science 实验功能，Science Skills 今天起在 Github 和 Antigra vity 中直接可用。

从 TPU 8i 到 Gemini 3.5，再到 Antigra vity 和 Spark，Google 在这届 I/O 上所呈现的，是一套从芯片到应用全面朝 Agent 方向演进的完整体系。

来源：https://cloud.tencent.com.cn/developer/article/2682866

其他