游乐游手机版
首页/AI教程/文章详情

Google I/O 2026所有发布内容完整盘点

时间:2026-06-06 16:19
谷歌I O2026发布多款AI:Gemini3 5Flash提速降本,Omni视频生成,反重力2 0与Spark亮相,搜索新增Agent及生成式UI 月处理token超3 2千万亿,用户增长显著

距离上一届 Google I/O 大会又过去了一年。

Google CEO 在开场便奠定了大会基调:过去一年,AI 行业迈入了全新阶段,人们不再仅仅关注技术本身,而是更期待看到人工智能真正为日常产品带来实际价值。Google 给出的答案,正是今天这场发布会所展示的一切。

衡量 AI 应用规模,token 是一个直观指标。两年前,Google 旗下各产品每月处理的 token 总量为 9.7 万亿。去年 I/O 时,这一数字增长到约 480 万亿。今年则直接跃升至每月超过 3.2 千万亿,增长约 7 倍。

开发者和企业侧的数据同样亮眼:每月使用 Google 模型构建应用的开发者超过 850 万;模型 API 目前每分钟处理约 190 亿 token;过去 12 个月,超过 375 家 Google Cloud 客户各自处理了超过 1 万亿 token。Google 目前有 13 款产品月活用户超过 10 亿,其中 5 款超过 30 亿。

搜索依然是覆盖范围最广的 AI 产品入口。AI Overviews 月活已超过 25 亿。AI Mode 作为搜索功能有史以来最大的升级,上线仅一年月活就突破 10 亿,用户的使用方式也在发生变化——从单次查询逐渐演变为持续对话。

Gemini 应用去年 I/O 时月活 4 亿,今年已超过 9 亿,翻了一倍多,日请求量增长超过 7 倍。其中 Nano Banana 图像生成模型已累计生成超过 500 亿张图片。

Google一口气发了多少东西?I_O 2026完整梳理

产品更新:让 AI 渗透进日常工具

Ask YouTube

YouTube 上虽有海量视频,但找到真正相关的内容并不容易。Ask YouTube 重新设计了这一体验,不仅展示匹配的视频,还会直接跳转到视频中最相关的片段。目前该功能已开始测试,今年夏天将在美国全面推出。

Docs Live

Google Docs 新增语音功能 Docs Live。以往使用 Gemini 写文档需要输入明确指令,现在只需对着麦克风把想法说出来,Gemini 会自动整理成文档。未来还将支持直接用语音新建和编辑文档。Docs Live 今年夏天向订阅用户推出,同期 Gmail 和 Keep 也将加入语音功能。

Ask Maps

谷歌地图迎来十年来最大升级,其中包括 Ask Maps 功能,支持更复杂、更长的提问。

基础设施:为 AI 规模运转提供底气

支撑这些产品规模化运转,需要大规模基础设施投入。2022 年,Google 每年的资本支出是 310 亿美元。今年预计达到约 1800 亿至 1900 亿美元,大约是当年的 6 倍。

芯片层面,Google 在 Cloud Next 上发布了第八代 TPU,首次采用双芯片策略,训练和推理各有专属架构:

TPU 8t 用于大规模预训练,原始算力约为上一代的 3 倍。结合 JAX 和 Pathways,训练不再受限于单个数据中心,可以跨多个站点分布式训练,全球可调用超过 100 万块 TPU,构成全球最大训练集群。模型训练时间从数月缩短到数周。

TPU 8i 专为推理设计,在速度上做了全面优化。两款芯片的能效均比上一代提升约 2 倍。

Gemini Omni:多模态世界模型

AI 正在从预测文字转向模拟现实。Gemini Omni 是 Google 新发布的多模态世界模型,可以接受任意模态的输入,生成任意模态的输出。首发版本以视频输出为主,后续会支持图像和文字。Gemini Omni Flash 今天起可以在 Gemini 应用、Google Flow 和 YouTube Shorts 上体验,开发者和企业客户也将在未来几周通过 API 获得访问权限。

1)用自然语言编辑视频。Omni 支持通过对话逐步编辑视频,每一条指令都建立在上一条的基础上,角色保持一致,物理规律成立,场景前后连贯。

2)物理理解与世界知识。Omni 对重力、动能、流体动力学等物理规律有更准确的直觉理解,生成的场景物理表现更真实。同时,它还能调用 Gemini 的历史、科学和文化背景知识,把语言、图像和含义连接起来,而不只是模式匹配。

3)任意输入组合。Omni 支持把图片、文字、视频、音频同时作为参考输入,生成统一风格的输出。

4)数字 A vatar。用户可以用 Omni 创建自己的数字 A vatar,生成看起来和听起来都像自己的视频。在修改视频中的音频和语音方面,Google 表示还在测试中。

不过有网友初步测试发现,Omni 的视频生成效果和 Seedance 2.0 相比仍有差距。

Gemini 3.5 Flash:更快、更便宜、更强

Google 今天推出 Gemini 3.5 Flash,定位为将前沿智能与行动能力相结合的新一代模型。

与 3.1 Pro 相比,3.5 Flash 在多项基准测试上领先,具体包括:Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和 MCP Atlas(83.6%),在多模态理解上 CharXiv Reasoning 达到 84.2%。其中 GDPVal 专门衡量现实世界中具有经济价值的任务,进步尤为明显。速度方面,输出 token 每秒是其他前沿模型的 4 倍,在 Antigra vity 中快 12 倍——达到 800 tokens/秒。

3.5 Flash 配合 Antigra vity 可以调度多个子 Agent 协同工作,处理规模化的复杂任务。前端生成能力依旧非常能打,在多模态基础上,3.5 Flash 还能生成更丰富的交互式网页 UI 和图形,比如直接在 AI Studio 中为一篇研究论文生成交互式动画。

价格方面,3.5 Flash 的成本不到同等前沿模型的一半。Google 给出了一个估算:头部企业每天处理约 1 万亿 token,如果将 80% 的工作负载从其他前沿模型切换到 3.5 Flash,每年可以节省超过 10 亿美元。

Gemini 3.5 Flash 今天起对所有用户和 API 开放。Gemini 3.5 Pro 目前在 Google 内部使用,下个月推出。

Google 内部数据显示,借助 Antigra vity 平台和 3.5 Flash,AI 开发工具的 token 处理量从 3 月份的每天 5000 亿,已经翻倍增长至如今每天超过 3 万亿。

Antigra vity 2.0 与 Google Spark:Agent 时代的核心平台

Antigra vity 原本是一个 AI 编程环境,现在正在扩展为一个完整的自主 AI Agent 开发和管理平台。

Antigra vity 2.0 是一个新的独立桌面应用,作为 Agent 交互的中心,用户可以在其中协调各类 Agent 处理不同任务。在速度上,这个版本使用了专门优化的 Flash 版本,比其他前沿模型快 12 倍。值得一提的是,Antigra vity 2.0 和 Codex 在界面设计上非常相似。

Antigra vity 用户今天起可以开始体验。

Gemini 应用即将推出个人 AI Agent——Gemini Spark,在用户授权下代替用户在数字世界中采取行动。几个关键特点:运行在 Google Cloud 专用虚拟机上,7×24 小时持续运行,不需要保持电脑开着;由 Gemini 3.5 和 Antigra vity 驱动,可以在后台轻松处理长周期任务;从 Google 自有工具开始整合,未来几周通过 MCP 接入第三方工具;支持在 Gemini 应用中交互,未来也可以通过邮件和即时通讯使用;在 Android 上,可以通过新 UI 空间 Android Halo 查看 Agent 的实时进度,今年晚些时候上线;今年夏天晚些时候,Spark 将直接在 Chrome 中运行,成为跨网页的 Agent 浏览器。

本周起 Spark 向受信测试用户开放,下周 Beta 版向美国 Google AI Ultra 订阅用户推出。

搜索也在向 Agent 方向进化

搜索正在成为更主动、更智能的信息入口。

信息 Agent:用户可以设置个性化 AI Agent 在后台持续运行,在合适的时机主动找到所需信息并协助采取行动。今年夏天起向 Google AI Pro 和 Ultra 订阅用户推出。

生成式 UI:结合 Gemini 3.5 Flash 和 Antigra vity,搜索将为每个问题动态生成定制化界面,包括个性化布局和交互式视觉内容。今年夏天向所有用户免费开放。

持久化自定义看板:对于需要持续追踪的长期任务,搜索可以为用户构建专属看板或追踪工具,类似为特定任务定制的迷你应用。未来几个月起向美国 Google AI Pro 和 Ultra 订阅用户开放。

Daily Brief:Gemini 应用即将推出的开箱即用 Agent,整合收件箱、日历和任务,生成个性化的每日摘要,不只是汇总信息,还会做优先级排序、整理和下一步建议,以便于快速浏览的形式呈现。

Google Flow:今天向所有用户推出新 Agent,可以在用户参与和控制下规划并处理复杂任务。支持在 Flow 中直接 vibe code 各类创意工具,例如视频特效设计、手绘动画或文字叠加工具。

Google Pics:基于最新 Nano Banana 模型的 AI 图像创建和编辑工具。它将图片中每个元素视为独立对象而非平面图像,支持对特定细节进行精确创建、替换和调整。目前向受信测试用户开放,今年夏天晚些时候向 Workspace 中的 Google AI Pro 和 Ultra 订阅用户推出。

智能眼镜:去年初次亮相的 AI 眼镜产品有了更多细节,分为音频眼镜(耳机形态,语音提示)和显示眼镜(可显示信息)两种,均支持免提使用 Gemini。音频眼镜今年秋天率先上市。

Gemini for Science:面向科学研究的 AI 工具集,整合了 Gemini 的深度推理和研究能力、Deep Think 和 Deep Research,并新增了可以将 Antigra vity 等 Agent 平台连接到超过 30 个主要生命科学数据库和工具的 Science Skills。用户可以在 Google Labs 申请试用 Gemini for Science 实验功能,Science Skills 今天起在 Github 和 Antigra vity 中直接可用。

从 TPU 8i 到 Gemini 3.5,再到 Antigra vity 和 Spark,Google 在这届 I/O 上所呈现的,是一套从芯片到应用全面朝 Agent 方向演进的完整体系。

来源:https://cloud.tencent.com.cn/developer/article/2682866
上一篇AI编程与飞书CLI及Skills重塑开发新范式实战详解 下一篇GridSFM:一种用于电网的预训练新型小型基础模型
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。