游乐游手机版
首页/科技数码/文章详情

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

时间:2025-10-08 18:01
谷歌的 Computer Use 模型来了! 今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2 5 的计算机使用模型Gemini 2 5 Computer Use。 考虑到前些

谷歌的 Computer Use 模型来了!

今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型Gemini 2.5 Computer Use。

考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说,与 OpenAI 的 Computer-Using Agent (CUA) 类似,DeepMind 的这个模型可让 AI 直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上,该模型可以帮助用户在浏览器中执行点击、滚动和输入等操作。

先来看两个最新演示。

提示词:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示词:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

可以看到,不管是收集网络信息与执行动作,还是整理杂乱笔记,Gemini 2.5 Computer Use 都非常准确地完成了任务,同时速度也相当快。

在相关基准上,Gemini 2.5 Computer Use 的性能表现也达到了 SOTA 水平:

同时,其速度表现也优于其它几个相比较的模型:

目前,开发者已可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 获取这些能力。用户也可以在 Browserbase 托管的演示环境中试用(最多仅支持 5 分钟的流程,且不支持用户中途接管):https://gemini.browserbase.com/

机器之心使用该演示环境做了几次尝试。整体来看,Gemini 2.5 Computer Use 在完成简单任务时准确度较高,但稍微复杂一点的任务就容易失败。

比如在执行「在维基百科上找到 John Wick 页面」这样的简单任务时,该模型的表现非常成功。

但只要稍微复杂一点,该模型就失败了,比如「在维基百科上找到 John Wick 页面,并总结其信息,给出中文版。」另外,我们让其「打开诺贝尔奖游戏,给出今年诺贝尔将宣布的时间表」的任务以及以下任务均未能成功完成。

提示词:浏览 jiqizhixin.com,找到近半年关于 Gemini 的报道,并整理成一份 Markdown 文件,并进行总结。

此外,DeepMind 也已经发布了 Gemini 2.5 Computer Use 系统卡:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use 的工作原理

该模型的核心能力是通过 Gemini API 中新增的computer_use工具实现的,开发者使用时需在一个循环流程(loop)中运行。

其输入应包括:

用户请求;

当前环境的截图;

最近执行动作的历史记录。

另外,输入中还可以指定是否从默认支持的 UI 动作中排除特定功能以及添加自定义函数。

Gemini 2.5 Computer Use 模型工作流程

模型分析这些输入后,会生成响应,通常是一个代表 UI 动作的函数调用(如点击或输入)。在某些操作(如购买行为)中,模型还会请求用户确认。客户端随后会执行这些动作。

动作执行完成后,系统会将最新截图与当前 URL 作为函数响应返回给模型,重新启动循环。

这一迭代过程会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。

谷歌表示,当前 Gemini 2.5 Computer Use 模型主要针对网页浏览器优化,但在移动端 UI 控制方面也展现出强劲潜力。不过它暂未针对桌面操作系统级控制进行优化。

安全机制设计

谷歌还在博客中分享了他们对该模型的安全机制设计。

谷歌表示:「负责任地构建智能体是让 AI 造福所有人的唯一途径。能够直接操作电脑的 AI 智能体带来了特有的风险,包括用户恶意使用、模型意外行为、以及网页环境下的提示词注入与诈骗。因此,我们在设计中高度重视安全防护。」

在 Gemini 2.5 Computer Use 模型中,谷歌直接在训练阶段融入安全机制,以应对三类主要风险(详见系统卡)。

此外,谷歌还为开发者提供安全控制选项,防止模型自动执行潜在高风险或有害操作,例如:

损害系统完整性;

危及安全;

绕过验证码;

控制医疗设备。

谷歌实施的控制手段包括:

逐步安全服务(Per-step Safety Service):在推理阶段,由独立安全服务评估每个模型拟执行的动作。

系统指令(System Instructions):开发者可设定在特定高风险操作前,智能体必须拒绝或请求用户确认。

结语

谷歌 DeepMind 携 Gemini 2.5 Computer Use 高调入场,不仅在多个基准测试上展示了领先的性能,也让 AI 智能体领域的竞争正式进入了白热化阶段。

从 OpenAI 到 Anthropic,再到如今的谷歌,科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩,但这恰恰是技术黎明前的真实写照。今天我们看到的不仅是一个新模型,更是一个清晰的信号:键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代,正加速向我们驶来。

参考链接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

来源:https://36kr.com/p/3499977975339904
上一篇中国杂交水稻,如何让非洲“端稳饭碗”? 下一篇OpenAI推出小型语音模型,强调语音交互在未来人机沟通中的核心地位【附多模态大模型行业市场分析】
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5