谷歌I/O大会后搜索框升级为AI智能体

时间：2026-05-29 15:47

谷歌I O大会宣布全面转向智能体时代，推出新一代模型Gemini3 5系列。其中Gemini3 5Flash已开放使用，在智能体与编程任务中表现突出且成本较低。谷歌搜索框集成AI功能，可执行持续信息扫描等复杂任务。多模态模型GeminiOmni支持混合输入并生成高质量视频。此外，基于Gemini的AI智能体Spark能与办公应用深度集成，自动处理工作流。数据

今天凌晨，谷歌告别了过去秉持的"克制"态度，全面转向了智能体时代。在刚刚落幕的I/O大会上，谷歌发布的一系列新产品传达出极其清晰的核心理念：打造一个"24小时不间断工作的智能体"。由此看来，由OpenClaw率先掀起的这股智能体浪潮已成定局，未来每个人手中的AI都将在不知疲倦的状态下持续运转。

谷歌首席执行官桑达尔・皮查伊在大会上分享了一组关键数据，清晰地揭示了行业竞争焦点的转移：机器学习模型领域的竞争焦点，已经从单纯的指标比拼，全面转向了智能体工程的实际落地。而衡量AI应用普及程度最直观的指标——token消耗量这一AI应用普及度的关键衡量指标，正以惊人的速度增长。两年前，用户每月通过谷歌各类渠道消耗9.7万亿token；去年，这一数字飙升至480万亿；而时至今日，更是在此基础上增长了七倍，达到每月超过3.2千万亿。

生态系统的蓬勃发展同样显而易见。目前，每月有超过850万活跃开发者正在利用Gemini构建新的应用与体验。谷歌旗下一共有13款产品用户量突破10亿大关，其中覆盖5款产品甚至超过30亿用户。这些产品无一例外均以AI技术为驱动。例如，谷歌搜索中集成的"AI模式"，月活跃用户早已突破10亿；而Nano Banana图像生成模型则已累计生成了超过500亿张图像。

本次大会的最大亮点，是推出了最新一代模型系列Gemini 3.5。谷歌将其描述为一款融合了前沿智能与行动能力的作品，标志着其在构建更强大智能体的征途中迈出了关键一步。不过，率先亮相的是轻量级版本Gemini 3.5 Flash。这款模型在智能体应用和编程方面展现了业界前沿性能，尤其擅长处理那些复杂、长周期且能产生现实价值的任务。

至于定位更高级的Gemini 3.5 Pro，谷歌坦承目前仍在紧锣密鼓地开发中，仅供内部使用。当皮查伊宣布新旗舰模型尚未准备就绪时，现场观众发出一片叹息声。他只好承诺："下个月一定亮相。"

而Gemini 3.5 Flash则从即日起正式面向全球用户开放：普通用户可通过Gemini App和Google搜索中集成的AI模式直接体验；开发者则能通过Google Antigra vity开发平台，以及Google AI Studio和Android Studio中的Gemini API进行调用；企业用户则可通过Gemini Enterprise Agent Platform和Gemini Enterprise来获取服务。

Gemini 3.5 Flash：具备面向智能体与编程的前沿性能

根据官方介绍，Gemini 3.5 Flash在多个智能维度上的表现已接近大型旗舰模型，同时传承了Flash系列一贯的"快速"优势，堪称当前最强的智能体与编程模型。

数据可以作为有力佐证。在Terminal-Bench 2.1、GDPval-AA、MCP Atlas等高难度编程与智能体基准测试中，其得分分别达到了76.2%、1656 Elo和83.6%，表现已经超越Gemini 3.1 Pro。在多模态理解方面，它同样展现出业界领先水平，在CharXiv Reasoning上取得了84.2%的成绩，且按输出token速度计算，要比其他模型快上4倍。

在Artificial Analysis指数中，3.5 Flash被定位在代表高性能与高速度的右上象限。这种速度与性能之间的理想平衡，使其尤其适合处理流程较长的智能体任务。与此同时，其使用成本通常不及其他前沿模型的一半。谷歌为此提出了最新观点："用户无需再在模型质量与响应延迟之间做出艰难取舍。"

当与全新升级的开发者平台Antigra vity执行框架结合使用时，3.5 Flash能够转化为部署协作式智能体的强大引擎，用于大规模处理最具挑战性的各类任务。在人类监督下，它可以可靠地执行多步骤工作流以及复杂的编程任务，同时保持业界领先的性能水平。

大会现场展示了几个令人印象深刻的实例：借助Antigra vity，3.5 Flash利用两个智能体对AlphaZero相关论文进行深入解析与整合，并在6个小时内成功编写出一款完全可运行的游戏。

在另一个案例中，3.5 Flash利用子智能体在Antigra vity平台中成功构建出全新的城市景观。

此外，值得关注的是，谷歌还显著增强了Gemini 3.5系列模型的网络安全防护能力。新模型严格遵循Frontier Safety Framework进行开发，全面强化了网络安全与CBRN相关安全防护。这意味着，新模型生成有害内容的可能性更低，同时也能更准确地判断并响应安全相关的问题，避免误判。

全家桶式AI应用全面升级

基础模型的重大迭代，自然带动了旗下全线产品的发布与革新。

首先是一款名为Spark的全新AI智能体。它基于Gemini 3.5构建，并与Gmail、Docs和Slides等Google Workspace应用进行了深度集成。用户可以通过自然语言"指导"它执行各类任务，例如在Gmail中创建重要截止日期列表并发送给自己，或者从冗长的邮件往来中提炼出最新进展。你甚至可以设定规则，让它自动执行那些重复性的繁琐任务，比如每月查找信用卡账单中的隐藏费用。

更进一步，你还可以设置规则，让它完成多个相互关联的任务，从而构建完整的工作流。例如，让Spark查看聊天记录和邮件中的会议纪要，在Google文档中自动生成一份精美的报告，并自动撰写一封附带报告的邮件。

谷歌对其核心盈利支柱——搜索业务，进行了有史以来规模最大的革新。引入Gemini 3.5 Flash后，全新的AI模式功能被直接嵌入搜索框，同时允许新的智能体在后台执行搜索任务。

现在，当用户输入搜索查询时，搜索框会自动扩展，提供更充足的交互空间，方便用户使用自然语言继续提问。这个全新的AI搜索框还允许用户在上传图片、视频、文件甚至Chrome浏览器标签页的同时进行搜索，为AI提供丰富的交互参考。

更进阶的功能是给搜索框"派任务"：用户可以向搜索智能体提供与查询相关的所有信息，随后智能体将全天候扫描新闻、博客和社交媒体等多元信息源，查找最相关、最新鲜的内容。例如，如果用户正在寻找公寓，他们可以向搜索智能体输入全部住房要求，AI便会持续扫描并推送符合条件的新房源列表。这是谷歌搜索框诞生25年来的首次重大更新。

多模态能力的发展也翻开了新篇章。去年Nano Banana的爆火场景还历历在目，今年谷歌则正式推出了Gemini Omni系列。这是一个将Gemini的推理能力与创作能力深度融合的全新系列，其首个版本为Gemini Omni Flash。作为新一代模型，Omni能够基于任何形式的输入内容来"生成万物"——首批支持的输出生成形式即为视频。

借助Omni，用户可以将图像、音频、视频及文本等多种形式混合作为输入，进而生成基于Gemini现实世界知识的高质量视频。此外，还可以通过自然对话交互的方式，轻松完成对视频的编辑。

来看几个演示案例：例如，输入提示词"把这座雕塑做成泡泡材质"，模型便能生成相应的创意视频。

你甚至可以将自己拍摄的一段视频交给Omni，只需告诉它你想把画面里发生的事件改成什么样，它就能修改动作、加入新角色或新物体，甚至将一个瞬间扩展成意想不到的场景。比如，输入提示词"公寓里的灯光开始随着音乐同步亮起"，便能实现动态效果。

目前，Gemini Omni Flash正在面向全球范围内的Google AI Plus、Pro和Ultra订阅用户开放，用户可通过Gemini App和Google Flow使用。同时，从本周开始，也将免费向YouTube Shorts和YouTube Create App上的用户开放。未来几周内，则会通过API渠道向开发者和企业客户开放。

或许，本次大会中最令人印象深刻的一句话，来自DeepMind联合创始人德米斯·哈萨比斯："当我们回顾这段时期时，我想我们会意识到，我们当时正站在技术奇点的山脚下。"这句话，为这场宣告智能体时代全面到来的发布会，写下了一个充满想象力的有力注脚。

来源：https://www.163.com/dy/article/KTCD4VMI0511AQHO.html

智能体