谷歌加入CUA战场，发布Gemini 2.5 Computer Use：让AI直接操作浏览器

时间：2025-10-08 18:01

谷歌的 Computer Use 模型来了！今天凌晨，谷歌 DeepMind 重磅发布了基于 Gemini 2 5 的计算机使用模型Gemini 2 5 Computer Use。考虑到前些

谷歌的 Computer Use 模型来了！

今天凌晨，谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型Gemini 2.5 Computer Use。

考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP)，Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说，与 OpenAI 的 Computer-Using Agent (CUA) 类似，DeepMind 的这个模型可让 AI 直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上，该模型可以帮助用户在浏览器中执行点击、滚动和输入等操作。

先来看两个最新演示。

提示词：From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示词：My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

可以看到，不管是收集网络信息与执行动作，还是整理杂乱笔记，Gemini 2.5 Computer Use 都非常准确地完成了任务，同时速度也相当快。

在相关基准上，Gemini 2.5 Computer Use 的性能表现也达到了 SOTA 水平：

同时，其速度表现也优于其它几个相比较的模型：

目前，开发者已可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 获取这些能力。用户也可以在 Browserbase 托管的演示环境中试用（最多仅支持 5 分钟的流程，且不支持用户中途接管）：https://gemini.browserbase.com/

机器之心使用该演示环境做了几次尝试。整体来看，Gemini 2.5 Computer Use 在完成简单任务时准确度较高，但稍微复杂一点的任务就容易失败。

比如在执行「在维基百科上找到 John Wick 页面」这样的简单任务时，该模型的表现非常成功。

但只要稍微复杂一点，该模型就失败了，比如「在维基百科上找到 John Wick 页面，并总结其信息，给出中文版。」另外，我们让其「打开诺贝尔奖游戏，给出今年诺贝尔将宣布的时间表」的任务以及以下任务均未能成功完成。

提示词：浏览 jiqizhixin.com，找到近半年关于 Gemini 的报道，并整理成一份 Markdown 文件，并进行总结。

此外，DeepMind 也已经发布了 Gemini 2.5 Computer Use 系统卡：

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use 的工作原理

该模型的核心能力是通过 Gemini API 中新增的computer_use工具实现的，开发者使用时需在一个循环流程（loop）中运行。

其输入应包括：

用户请求；

当前环境的截图；

最近执行动作的历史记录。

另外，输入中还可以指定是否从默认支持的 UI 动作中排除特定功能以及添加自定义函数。

Gemini 2.5 Computer Use 模型工作流程

模型分析这些输入后，会生成响应，通常是一个代表 UI 动作的函数调用（如点击或输入）。在某些操作（如购买行为）中，模型还会请求用户确认。客户端随后会执行这些动作。

动作执行完成后，系统会将最新截图与当前 URL 作为函数响应返回给模型，重新启动循环。

这一迭代过程会持续进行，直到任务完成、出现错误，或因安全机制或用户决定而终止。

谷歌表示，当前 Gemini 2.5 Computer Use 模型主要针对网页浏览器优化，但在移动端 UI 控制方面也展现出强劲潜力。不过它暂未针对桌面操作系统级控制进行优化。

安全机制设计

谷歌还在博客中分享了他们对该模型的安全机制设计。

谷歌表示：「负责任地构建智能体是让 AI 造福所有人的唯一途径。能够直接操作电脑的 AI 智能体带来了特有的风险，包括用户恶意使用、模型意外行为、以及网页环境下的提示词注入与诈骗。因此，我们在设计中高度重视安全防护。」

在 Gemini 2.5 Computer Use 模型中，谷歌直接在训练阶段融入安全机制，以应对三类主要风险（详见系统卡）。

此外，谷歌还为开发者提供安全控制选项，防止模型自动执行潜在高风险或有害操作，例如：

损害系统完整性；

危及安全；

绕过验证码；

控制医疗设备。

谷歌实施的控制手段包括：

逐步安全服务（Per-step Safety Service）：在推理阶段，由独立安全服务评估每个模型拟执行的动作。

系统指令（System Instructions）：开发者可设定在特定高风险操作前，智能体必须拒绝或请求用户确认。

结语

谷歌 DeepMind 携 Gemini 2.5 Computer Use 高调入场，不仅在多个基准测试上展示了领先的性能，也让 AI 智能体领域的竞争正式进入了白热化阶段。

从 OpenAI 到 Anthropic，再到如今的谷歌，科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩，但这恰恰是技术黎明前的真实写照。今天我们看到的不仅是一个新模型，更是一个清晰的信号：键盘和鼠标的主导地位正受到挑战，一个通过自然语言直接驱动数字世界的时代，正加速向我们驶来。

参考链接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

来源：https://36kr.com/p/3499977975339904

上一篇中国杂交水稻，如何让非洲“端稳饭碗”？ 下一篇OpenAI推出小型语音模型，强调语音交互在未来人机沟通中的核心地位【附多模态大模型行业市场分析】

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5