游乐游手机版
首页/业界动态/文章详情

Computer Use Preview - 谷歌开源的AI浏览器自动化工具

时间:2026-04-22 19:29
Computer Use Preview是什么 简单来说,Computer Use Preview 就是谷歌官方开源的一款“AI浏览器操盘手”。它背后的核心引擎是 Gemini 模型的视觉能力,其工作逻辑非常贴近我们人类的操作习惯:先截图看清页面,再由AI分析该干什么,最后执行操作。这套“所见即所得

Computer Use Preview是什么

简单来说,Computer Use Preview 就是谷歌官方开源的一款“AI浏览器操盘手”。它背后的核心引擎是 Gemini 模型的视觉能力,其工作逻辑非常贴近我们人类的操作习惯:先截图看清页面,再由AI分析该干什么,最后执行操作。这套“所见即所得”的模式,让它彻底摆脱了对传统自动化工具所依赖的固定元素定位(比如XPath、CSS选择器)的束缚。

这意味着什么?这意味着它能处理许多传统脚本望而却步的复杂任务,比如在不同网站间搬运数据,或者完成那些依赖视觉判断的交互。有测试为证:在衡量任务完成度的基准测试中,它的得分达到了69%,这个表现已经超过了市面上不少同类工具。

它深度集成了 Gemini API 和 Vertex AI,所以任务理解能力相当强悍。无论是做网页测试、数据采集,还是帮你搞定日常的重复性网页操作,它都能胜任。对于想尝试浏览器自动化又不想碰代码的朋友来说,这无疑是个理想的“零代码”入门神器。

Computer Use Preview的主要功能

它的功能设计,完全围绕着“让机器更像人”这个目标展开:

  • 自然语言驱动:你只需要用大白话描述任务,比如“去京东搜一下最新的智能手机并列出前三名”,剩下的规划与执行链路,AI会自动帮你搞定。编写复杂脚本?那已经是过去式了。
  • 智能交互:导航、点击、填表、滚动……这些基础操作自不在话下。更关键的是,得益于Gemini模型,它能理解页面的动态变化。页面弹了个窗?元素加载慢了点?它都能适应,交互逻辑相当灵活。
  • 双环境支持:它提供了两种“驾驶舱”,适应不同场景:
    • Playwright(本地运行):在本地直接调用Chrome浏览器,适合处理涉及本地文件或对隐私要求高的任务。
    • Browserbase(云环境):连接云端的浏览器实例,适合需要稳定云资源、长时运行或进行分布式操作的项目。
  • 调试友好:执行过程“有图有真相”。支持实时截图和鼠标轨迹高亮,你可以像看回放一样监控每一步操作,哪里出了问题一目了然,调试和优化效率大大提升。
  • AI 大模型集成:这不是简单的接口调用,而是与Gemini API和Vertex AI的深度集成。这让它具备了强大的语义理解和上下文推理能力,面对复杂的多步指令和动态多变的网页内容,也能从容应对。

如何使用Computer Use Preview

上手这套工具并不复杂,跟着下面几步走,你很快就能看到效果:

  • 准备工作:首先,访问它的GitHub项目页面,把源码下载到本地并解压。
  • 设置运行环境:确保你的电脑安装了Python(建议3.8及以上版本)。创建一个独立的虚拟环境并激活它,这是保证项目依赖纯净的好习惯。
  • 安装依赖:进入项目文件夹,运行安装命令,把所需的Python包以及Playwright浏览器一并装好。
  • 配置 API 密钥:去Google Cloud平台申请一个Gemini API密钥,然后将其设置为系统的环境变量。这是工具获得“大脑”的关键一步。
  • 运行工具:激动人心的时刻到了。现在,直接用自然语言指令启动它,比如输入:“访问百度,搜索‘今日天气’并打开第一个结果。”接下来,就看它的表演了。
  • 可选配置:你可以根据需求,指定使用本地Playwright还是云端的Browserbase环境,并调整超时时间、模型版本等参数,以获取最佳性能。

Computer Use Preview的项目地址

  • GitHub仓库:所有的源代码、详细文档和更新日志都在这里:https://github.com/google-gemini/computer-use-preview
  • 在线体验地址:如果你想快速尝鲜,无需配置本地环境,可以直接通过 Browserbase 提供的在线服务进行体验。

Computer Use Preview的应用场景

这么一款工具,到底能用在哪?它的应用场景其实非常接地气:

  • Web 自动化测试:让自动化测试变得更“智能”。它可以快速验证按钮点击、表单提交、流程跳转等功能是否正常,尤其擅长处理那些元素ID不固定或动态加载的页面。
  • 数据采集:告别手动复制粘贴。无论是监测商品价格、爬取新闻列表,还是收集公开的行业数据,它都能像一名不知疲倦的助手,自动帮你完成抓取。
  • 跨网站数据搬运:这才是它真正发挥威力的地方。比如,把某个论坛的热帖自动同步到你的内容管理系统,或者将电商平台的订单信息搬运到内部报表中,它能打通不同平台间的数据流。
  • 日常任务自动化:那些每天都要重复的网页操作,比如登录系统查报表、定时到某个网站签到、批量下载文件等,完全可以交给它来定时执行,为你省下大量时间和精力。
  • 视觉交互任务:基于图像识别,它能完成更“精细”的活。例如,在一個设计工具网站上,识别并拖拽特定的图标组件;或者对网页上的图片进行自动分类。这些任务,传统自动化工具很难实现。
来源:https://ai-bot.cn/computer-use-preview/
上一篇InstanceAssemble - 小红书联合复旦推出的图像生成框架 下一篇MAI-UI - 阿里通义开源的全尺寸GUI智能体基座模型
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
诺基亚TA-1619入网:1400mAh电池双卡双待新机
业界动态 · 2026-07-01

诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容

芯佰微CBMRF900系列国产射频芯片突破海外壁垒
业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。

月起私人充电桩可卖电 每度净赚5毛
业界动态 · 2026-07-01

月起私人充电桩可卖电 每度净赚5毛

近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,

谷歌发布Nano Banana 2 Lite 4秒出图1元4张
业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便

技嘉专业电竞装备助力2025 CFS世界总决赛
业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。