谷歌I/O 2026新品盘点 Gemini与AI搜索全面升级

时间：2026-05-21 13:18

5月20日，2026年谷歌I O开发者大会如期而至，一系列重磅新品集中亮相，其中Gemini家族的新成员尤为引人注目。以下是经整合梳理的谷歌CEO桑达尔·皮查伊在大会上的核心演讲内容。自去年I O大会以来，谷歌度过了成果丰硕的一年。技术迭代的速度不断刷新纪录，而用户的期待也愈发清晰：他们希望在日常

5月20日，2026年谷歌I/O开发者大会如期而至，一系列重磅新品集中亮相，其中Gemini家族的新成员尤为引人注目。以下是经整合梳理的谷歌CEO桑达尔·皮查伊在大会上的核心演讲内容。

自去年I/O大会以来，谷歌度过了成果丰硕的一年。技术迭代的速度不断刷新纪录，而用户的期待也愈发清晰：他们希望在日常使用的产品中，真切感受到人工智能带来的实际价值。这正是谷歌持续努力的方向，今天发布的众多产品和功能，便是对这一承诺的最新回应。

回顾公司“AI优先”战略转型的十年历程，谷歌始终坚信，发展人工智能是践行其使命、大规模改善人们生活的最有效途径。为此，谷歌选择了一条独特的全栈式创新路径：从底层的定制芯片、安全稳固的基础设施，到世界级的研究与基础模型，再到触达全球数十亿用户的产品平台。这种深度整合的模式，不仅加速了迭代与创新的步伐，也为公司全线业务注入了强劲动力。

令人鼓舞的是，全球用户正在以多样化的方式拥抱AI：学生们利用Gemini应用备战考试；音乐家和艺术家将Lyria、Veo等生成式模型融入创作流程；开发者则借助AI工具，将创意更快地转化为代码与现实。

全栈式AI的发展势头

技术的进步，最终要落实到用户的实际使用中。而衡量AI采纳规模的一个直观量化指标，便是“token”——这是模型处理信息的基本单位，每一个token往往对应着一个被解决的问题。

两年前，谷歌各平台每月处理的token量是9.7万亿个。到去年I/O大会时，这个数字已跃升至约480万亿。而今天，这一规模实现了同比7倍的巨幅增长，每月处理的token量一举突破了3200万亿大关。

这组数据背后，是产品与生态的蓬勃生长：

目前，每月有超过850万名开发者正在使用谷歌的模型构建全新的应用与体验。

谷歌的模型API每分钟处理的token量已高达约190亿个。

过去12个月中，超过375家Google Cloud企业客户各自处理了超过1万亿个token，彰显出各行各业对AI的强劲需求。

产品的增长引擎

如今，谷歌旗下拥有13款月活用户超10亿的产品，其中5款更是超过了30亿用户。Gemini模型正是吸引新用户、提升用户活跃度的核心驱动力。

这一切始于搜索。在让全球用户体验生成式AI优势方面，搜索的贡献超过了任何其他产品。目前，搜索中的“AI概览”功能月活跃用户已超过25亿。

而搜索的“AI模式”则是有史以来最重大的升级之一，深受用户喜爱，在推出一年内其月活用户便突破了10亿。

当用户在搜索中体验到这些AI驱动的功能后，他们使用搜索的频率更高了。搜索不再仅仅是简单的问答，而更像是一场连续的对话，帮助用户获取深层洞察，并无缝连接互联网上的海量信息。

与此同时，Gemini应用也在飞速创新。去年I/O时，其月活用户为4亿，如今已突破9亿，一年内增长超过一倍。用户每日提交的请求量也增长了7倍以上。

通过增加诸如“个人智能”等独特功能，Gemini的回复变得更加个性化和实用。其内置的Nano Banana图像生成模型已累计生成超过500亿张图片，成为过去一年展现世界创造力的明星产品。

迈向自然对话的AI体验

然而，AI生产力的潜力远未完全释放。过去一年，谷歌致力于让用户能在产品中与Gemini进行更自然的对话。不久前，Google Maps迎来了十年最大升级，推出了“Ask Maps”功能，用户可以直接用复杂的自然语言进行提问。

现在，这种自然对话的AI体验正扩展到更多产品中。

Ask YouTube

每天都有无数用户来到YouTube寻找答案。尽管平台拥有海量优质视频，但快速找到所需信息的切入点有时并不容易。

“Ask YouTube”功能彻底重构了这一体验，让视频中的信息变得易于理解和浏览。AI不仅能精准推荐最符合用户兴趣的视频，更能直接跳转到视频中最相关的核心片段。该功能已开始小范围测试，并计划于今年夏季在美国广泛推广。

语音驱动的Docs Live

很多时候，我们都希望处理事务的速度能像说话一样快。得益于音频模型的技术飞跃，这正成为现实。

全新功能“Docs Live”将这一体验推向新高度。以往使用Gemini创建文档，需要输入精准的提示词。而现在，用户只需口述想法，Gemini就能高效地完成后续工作。未来，用户将能用声音创建和编辑文档。“Docs Live”将于今年夏季向订阅用户开放，届时，强大的语音功能也将同步引入Gmail和Keep。

支撑海量创新的基础

看到创新在产品端快速推进令人振奋，但要同时支持全球海量用户、开发者与企业客户，离不开对基础设施的巨大投入。

谷歌一直在为现在和未来布局：2024年的年度资本支出为310亿美元，而今年，这一数字预计将增长至约1800亿美元。其中，自主研发的定制芯片是投入的核心。

十年前，谷歌在I/O大会上发布了第一代TPU，自此改变了行业构建AI的方式。近期，第八代TPU正式亮相，首次采用双芯片设计，针对训练和推理的不同需求进行硬件架构优化：TPU 8t和TPU 8i。

TPU 8t针对大规模预训练优化，其原始算力几乎是上一代的近3倍。借助JAX和Pathways框架，模型训练不再受限于单一数据中心，可以无缝分布到全球多个站点，实现跨百万级TPU的协同训练。

这赋予了构建全球最大训练集群的能力，意味着模型构建者可以在几周而非几个月内，训练出更强大、更复杂的模型。

TPU 8i则专为模型推理设计，显著提升了每个环节的速度。深耕搜索27年的经验表明：运行速度至关重要。

除了速度，可持续的能效表现同样重要。这两款新芯片在每瓦特性能上均实现了高达2倍的提升。

Gemini Omni模型

得益于TPU的进展，谷歌在模型、编程和智能体等领域持续推动算力性能发展。借助“世界模型”，AI正在从文本预测迈向对现实物理世界的模拟。

Gemini Omni是全新的模型系列，能够基于任意输入生成任意输出模态的内容。视频输出能力将率先推出，未来将扩展至图片和文本。该模型将Gemini的核心智能与生成式媒体模型深度融合，在现实世界理解能力上实现了巨大飞跃。今天，Omni系列的首个模型——Gemini Omni Flash正式推出。

Gemini Omni Flash即日起上线，用户可在Gemini应用、Google Flow和YouTube Shorts中使用。未来几周内，该模型也将通过API向开发者和企业客户全面开放。

SynthID技术升级与行业协作

随着生成式AI技术的演进，对内容透明度的需求日益凸显。研究表明，用户单凭肉眼识别高质量深度伪造视频的正确率仅约四分之一。

三年前，谷歌推出了肉眼不可见的数字水印技术SynthID。自上线以来，已为超过1000亿张图片和视频、以及相当于6万年时长的音频内容添加水印。

如今，数百万用户利用Gemini应用中的SynthID检测工具验证AI生成内容。现在更进一步，在核心产品中加入了“内容凭证验证”功能，帮助用户识别内容来源是相机拍摄还是AI生成，以及是否经过AI工具编辑。

为了让更多用户便捷使用这些工具，谷歌计划将Content Credentials和SynthID核验功能直接嵌入Google搜索和Chrome浏览器中。

当然，这项技术要真正发挥作用，需要更多行业伙伴的加入。继去年英伟达之后，今天很高兴宣布，OpenAI、Kakao以及Eleven Labs也将采用SynthID水印标准。这种跨行业的紧密协作，有助于共同树立AI时代的数字安全与透明度标杆。

Gemini 3.5 Flash

几个月前发布的Gemini 3系列已成为目前最受欢迎的模型系列。开发者将Flash作为日常开发的主力工具，并基于Pro模型强大的推理和多模态能力构建了精彩应用。同时，谷歌持续专注于提升模型在智能化编程、长周期任务及现实工作流中的表现。

今天，Gemini 3.5 Flash正式推出，这是首款融合前沿智能与高效行动力的模型，其核心突破有两点：

首先，与Gemini 3.1 Pro相比，3.5 Flash在几乎所有基准测试中都表现更优，尤其在编程方面取得巨大进步，在衡量现实经济价值任务的GDPVal评分上实现了跨越式飞跃。

其次，Gemini 3.5 Flash在保持前沿级别智能的同时，拥有极高的运行速度。从智能水平与输出速度的综合维度看，它处于独一档的位置，其每秒Token输出量达到了其他同类模型的4倍。

这款新模型在谷歌内部的研发工作中带来了碘伏性变化。结合全新重构的智能体化开发平台Antigra vity使用，内部开发构建速度得到显著提升。

今年3月，谷歌内部的AI编程工具每天处理5000亿个token，且每隔几周就会翻倍。如今，每天处理的token量已超过3万亿个。这种超大规模的运行形成了强大的数据反馈闭环，持续优化并提升着3.5模型的实际表现。

Flash模型的惊艳之处在于，它提供了前沿级能力，但价格不到同类前沿模型的一半。许多企业反馈，其年度模型token预算在5月前就已接近耗尽。

若企业将Flash模型与其他前沿模型组合使用，将能节省巨额开支。以头部科技公司为例，若将其日常工作中80%的负载从其他前沿模型迁移至Gemini 3.5 Flash，每年可节省超过10亿美元。这笔可观的成本节约，可以重新投入到企业核心业务中。

即日起，Gemini 3.5 Flash将在各类产品和API中全面开放。同时，Gemini 3.5 Pro的研发也在全力推进，该模型已在谷歌内部投入使用，展现出极大的性能提升，预计将于下个月正式推出。

Antigra vity 2.0

谷歌同步将3.5 Flash引入Antigra vity平台，面向开发者开放。Antigra vity正在突破传统编程环境的局限，演变为一个可以开发和管理AI智能体集群的综合平台。

其中包括Antigra vity 2.0，这是一款能够作为智能体交互核心枢纽的全新独立桌面应用，让任何用户都可以协调编排多个智能体协同完成任务。同时，平台内置了进一步优化的Flash版本，其响应速度达到了其他前沿模型的12倍。用户即日起可在Antigra vity中率先体验。

个人AI智能体Gemini Spark

Gemini 3.5与Antigra vity正在开启一个由智能体驱动的新世界。此前，智能体能力主要面向开发者和企业用户。现在，谷歌致力于在确保安全可靠的前提下，将智能体的能力带给广大普通用户。

从今天起，用户将在谷歌的多款产品中体验到这一未来。备受期待的Gemini Spark，是内置在Gemini应用中的个人AI智能体，能够协助用户处理数字事务，并在用户授权下代为执行任务。

它运行在Google Cloud的专属虚拟机上，提供24小时全天候服务，无需本地设备维持程序运行；由Gemini 3.5模型与Google Antigra vity harness驱动，能够在后台轻松执行长周期、多步骤的复杂任务；Spark将与各类工具无缝集成，率先整合Google生态工具，并在未来几周内通过MCP接入第三方工具。

用户可以通过最便利的方式与Spark协作：直接在Gemini应用中使用，或不久后通过电子邮件和聊天软件与其交互。在Android设备上，用户可通过今年晚些时候推出的全新交互空间Android Halo，查看Spark等智能体的实时更新和任务进度。今年夏季，Spark还将直接内置于Chrome浏览器中，作为用户的智能浏览器助手协助处理全网事务。

谷歌将于本周开始向可信测试人员推出Gemini Spark，并计划于下周向美国的Google AI Ultra订阅用户开放Beta测试版。

智能体时代的搜索

Gemini Spark是基于3.5模型和Antigra vity构建的首款体验。这种能力的融合，为创新产品赋予更大实用价值提供了全新途径。

随着步入智能体时代，Google搜索将变得比以往任何时候都更加强大和实用。今天，搜索正式引入“信息智能体”。

这些个性化AI智能体可以在后台全天候运行，在恰当的时机找到用户所需的关键信息并协助采取行动。该功能将于今年夏天率先面向Google AI Pro和Ultra订阅用户推出。

另一种实现智能化搜索的方法是为其引入智能编程能力。借助Gemini 3.5 Flash和Google Antigra vity，Google搜索将能够针对用户的具体问题打造定制化体验，例如动态布局和交互式视觉效果。这些生成式UI能力将于今年夏天向所有搜索用户免费开放。

对于那些需要反复跟进的长周期任务，Google搜索可以更进一步：构建一个持久的自定义仪表板或进度追踪器，方便用户随时返回查看并推进进度。用户可以将这些视为针对个人特定任务的“迷你应用程序”。未来几个月里，用户将能够直接在搜索中利用Antigra vity构建自定义体验，该功能将率先面向美国的Google AI Pro和Ultra订阅用户开放。

智能体Gemini时代的更多新品

以下是今年I/O大会上分享的其他进展：

每日简报：即将内置於Gemini应用的另一款开箱即用型智能体。它提供个性化摘要，自动分析用户的收件箱、日历和待办事项，提炼出当天最需要关注的核心要务，并进行优先级排序、整理信息并提出后续步骤建议，所有信息浓缩于一份简洁明了的晨间简报中。

Google Flow：今天面向所有用户推出的全新智能体，可以根据用户输入，在用户控制下对复杂任务进行推理与规划。基于Gemini模型构建，它能深刻理解项目背景，协助进行早期的头脑风暴、内容撰写与编辑。用户甚至可以直接在Flow中使用“氛围编程”定制任何想要的创意工具。

Google Pics：全新的AI图像创作与编辑工具，基于最新的Nano Banana模型构建。无论用户是从空白画布开始设计，还是编辑现有照片，Pics都会将画面中的每一个元素视为独立、可交互的对象，而非扁平静态的图，从而允许用户创建、替换或修改特定细节。Google Pics即日起向可信测试人员开放，并将在今年夏天晚些时候向Workspace中的Google AI Pro和Ultra订阅用户正式推出。

智能眼镜最新进展：分享了去年亮相的Google智能眼镜项目的最新成果，包括提供耳边实时语音协助的音频眼镜，以及在需要时立即呈现现实所需信息的显示眼镜。两款设备都能让用户解放双手，只需向Gemini提问即可获取支持。音频眼镜将率先上市，计划于今年秋季晚些时候推出。

Gemini for Science：该平台汇聚了一系列旨在加速科学研究的AI工具。它基于Gemini的深度推理和研究能力，新增了Labs上的全新实验和“Science Skills”，可将Google Antigra vity等智能体平台无缝连接到全球30多个主流的生命科学核心数据库和专业工具中。用户即日起可在Google Labs申请体验，而Science Skills今天已在GitHub以及Antigra vity平台中上线。

纵观从TPU 8i的基础设施到Gemini 3.5与Antigra vity的全栈式创新，一个清晰的趋势已然显现：智能体化的Gemini时代已经到来。这些全新的技术能力，正协助谷歌将公司使命落到实处，让产品变得更加平实、好用，切实助力全球每一个角落的每一个人。

来源：https://www.donews.com/news/detail/1/6563173.html

Gemini

上一篇商汤科技连续十年领跑中国视觉AI市场占有率第一 下一篇2026年如何选择稳定高效的GEO服务商提升品牌可见度

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。