游乐游手机版
首页/业界动态/文章详情

Computer Use Preview - 谷歌开源的AI浏览器自动化工具

时间:2026-04-22 19:29
Computer Use Preview是什么 简单来说,Computer Use Preview 就是谷歌官方开源的一款“AI浏览器操盘手”。它背后的核心引擎是 Gemini 模型的视觉能力,其工作逻辑非常贴近我们人类的操作习惯:先截图看清页面,再由AI分析该干什么,最后执行操作。这套“所见即所得

Computer Use Preview是什么

简单来说,Computer Use Preview 就是谷歌官方开源的一款“AI浏览器操盘手”。它背后的核心引擎是 Gemini 模型的视觉能力,其工作逻辑非常贴近我们人类的操作习惯:先截图看清页面,再由AI分析该干什么,最后执行操作。这套“所见即所得”的模式,让它彻底摆脱了对传统自动化工具所依赖的固定元素定位(比如XPath、CSS选择器)的束缚。

这意味着什么?这意味着它能处理许多传统脚本望而却步的复杂任务,比如在不同网站间搬运数据,或者完成那些依赖视觉判断的交互。有测试为证:在衡量任务完成度的基准测试中,它的得分达到了69%,这个表现已经超过了市面上不少同类工具。

它深度集成了 Gemini API 和 Vertex AI,所以任务理解能力相当强悍。无论是做网页测试、数据采集,还是帮你搞定日常的重复性网页操作,它都能胜任。对于想尝试浏览器自动化又不想碰代码的朋友来说,这无疑是个理想的“零代码”入门神器。

Computer Use Preview的主要功能

它的功能设计,完全围绕着“让机器更像人”这个目标展开:

  • 自然语言驱动:你只需要用大白话描述任务,比如“去京东搜一下最新的智能手机并列出前三名”,剩下的规划与执行链路,AI会自动帮你搞定。编写复杂脚本?那已经是过去式了。
  • 智能交互:导航、点击、填表、滚动……这些基础操作自不在话下。更关键的是,得益于Gemini模型,它能理解页面的动态变化。页面弹了个窗?元素加载慢了点?它都能适应,交互逻辑相当灵活。
  • 双环境支持:它提供了两种“驾驶舱”,适应不同场景:
    • Playwright(本地运行):在本地直接调用Chrome浏览器,适合处理涉及本地文件或对隐私要求高的任务。
    • Browserbase(云环境):连接云端的浏览器实例,适合需要稳定云资源、长时运行或进行分布式操作的项目。
  • 调试友好:执行过程“有图有真相”。支持实时截图和鼠标轨迹高亮,你可以像看回放一样监控每一步操作,哪里出了问题一目了然,调试和优化效率大大提升。
  • AI 大模型集成:这不是简单的接口调用,而是与Gemini API和Vertex AI的深度集成。这让它具备了强大的语义理解和上下文推理能力,面对复杂的多步指令和动态多变的网页内容,也能从容应对。

如何使用Computer Use Preview

上手这套工具并不复杂,跟着下面几步走,你很快就能看到效果:

  • 准备工作:首先,访问它的GitHub项目页面,把源码下载到本地并解压。
  • 设置运行环境:确保你的电脑安装了Python(建议3.8及以上版本)。创建一个独立的虚拟环境并激活它,这是保证项目依赖纯净的好习惯。
  • 安装依赖:进入项目文件夹,运行安装命令,把所需的Python包以及Playwright浏览器一并装好。
  • 配置 API 密钥:去Google Cloud平台申请一个Gemini API密钥,然后将其设置为系统的环境变量。这是工具获得“大脑”的关键一步。
  • 运行工具:激动人心的时刻到了。现在,直接用自然语言指令启动它,比如输入:“访问百度,搜索‘今日天气’并打开第一个结果。”接下来,就看它的表演了。
  • 可选配置:你可以根据需求,指定使用本地Playwright还是云端的Browserbase环境,并调整超时时间、模型版本等参数,以获取最佳性能。

Computer Use Preview的项目地址

  • GitHub仓库:所有的源代码、详细文档和更新日志都在这里:https://github.com/google-gemini/computer-use-preview
  • 在线体验地址:如果你想快速尝鲜,无需配置本地环境,可以直接通过 Browserbase 提供的在线服务进行体验。

Computer Use Preview的应用场景

这么一款工具,到底能用在哪?它的应用场景其实非常接地气:

  • Web 自动化测试:让自动化测试变得更“智能”。它可以快速验证按钮点击、表单提交、流程跳转等功能是否正常,尤其擅长处理那些元素ID不固定或动态加载的页面。
  • 数据采集:告别手动复制粘贴。无论是监测商品价格、爬取新闻列表,还是收集公开的行业数据,它都能像一名不知疲倦的助手,自动帮你完成抓取。
  • 跨网站数据搬运:这才是它真正发挥威力的地方。比如,把某个论坛的热帖自动同步到你的内容管理系统,或者将电商平台的订单信息搬运到内部报表中,它能打通不同平台间的数据流。
  • 日常任务自动化:那些每天都要重复的网页操作,比如登录系统查报表、定时到某个网站签到、批量下载文件等,完全可以交给它来定时执行,为你省下大量时间和精力。
  • 视觉交互任务:基于图像识别,它能完成更“精细”的活。例如,在一個设计工具网站上,识别并拖拽特定的图标组件;或者对网页上的图片进行自动分类。这些任务,传统自动化工具很难实现。
来源:https://ai-bot.cn/computer-use-preview/
上一篇InstanceAssemble - 小红书联合复旦推出的图像生成框架 下一篇MAI-UI - 阿里通义开源的全尺寸GUI智能体基座模型
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
九号N1机甲风电动车发布 模拟声浪轻量化车架3499元起
业界动态 · 2026-05-29

九号N1机甲风电动车发布 模拟声浪轻量化车架3499元起

九号发布N1机甲风电动车系列,三款起售价3499元。N170极速47km h,轻量化车架;N185极速55km h,可选模拟声浪;旗舰N190极速60km h,标配模拟声浪及双通道ABS,7月上市。

九号2026新品发布会最强阵容连发4款新车重新定义好车标准
业界动态 · 2026-05-29

九号2026新品发布会最强阵容连发4款新车重新定义好车标准

九号公司发布2026年新品,推出N1、M1、M3及Fz5四款新车,覆盖电摩与电自领域。N1主打短轴距声光电酷玩体验,M1配备双通道ABS与100公里真续航,M3下放AXC车架技术,Fz5首搭载双向转把功能。同时推出3年原厂换新质保等用户权益。

世界超级摩托车锦标赛阿拉贡站张雪机车超级杆位赛获亚军
业界动态 · 2026-05-29

世界超级摩托车锦标赛阿拉贡站张雪机车超级杆位赛获亚军

5月29日,世界超级摩托车锦标赛(WSBK)阿拉贡站传来一则引人瞩目的消息——中国摩托车制造商“张雪机车”旗下的法国车手瓦伦丁·德比斯,在WorldSSP组别的超级杆位赛中成功夺得第二名。 先简要科普一下赛事背景:世界超级摩托车锦标赛(WSBK)是由国际摩托车联合会于1988年创立的顶级公路摩托车赛

英雄联盟海克斯大乱斗重大更新 移除羁绊新增技能符文
业界动态 · 2026-05-29

英雄联盟海克斯大乱斗重大更新 移除羁绊新增技能符文

英雄联盟海克斯大乱斗将在26 12版本移除羁绊系统,上线技能符文体系。该符文能重构技能释放逻辑,实现布里茨钩五人、拉克丝定全队等效果。部分原有羁绊效果转为独立专属符文,更新预计2026年6月中旬登陆国服。

领克10/10+正式上市限时价16.99-23.59万号称弯道之王
业界动态 · 2026-05-29

领克10/10+正式上市限时价16.99-23.59万号称弯道之王

```html 5月29日晚间,领克终于将其备受关注的中大型运动纯电轿车正式推向市场——领克10与领克10+同步上市,官方直接打出“弯道之王”的旗号。我们先不深究它是否真能“弯道超车”,单从价格来看,就已经颇具冲击力。 先奉上一张价格速览表,让大家心里有个底: 领克 10 701 长续航 Max:指