Computer Use Preview是什么
简单来说,Computer Use Preview 就是谷歌官方开源的一款“AI浏览器操盘手”。它背后的核心引擎是 Gemini 模型的视觉能力,其工作逻辑非常贴近我们人类的操作习惯:先截图看清页面,再由AI分析该干什么,最后执行操作。这套“所见即所得”的模式,让它彻底摆脱了对传统自动化工具所依赖的固定元素定位(比如XPath、CSS选择器)的束缚。
这意味着什么?这意味着它能处理许多传统脚本望而却步的复杂任务,比如在不同网站间搬运数据,或者完成那些依赖视觉判断的交互。有测试为证:在衡量任务完成度的基准测试中,它的得分达到了69%,这个表现已经超过了市面上不少同类工具。
它深度集成了 Gemini API 和 Vertex AI,所以任务理解能力相当强悍。无论是做网页测试、数据采集,还是帮你搞定日常的重复性网页操作,它都能胜任。对于想尝试浏览器自动化又不想碰代码的朋友来说,这无疑是个理想的“零代码”入门神器。
Computer Use Preview的主要功能
它的功能设计,完全围绕着“让机器更像人”这个目标展开:
- 自然语言驱动:你只需要用大白话描述任务,比如“去京东搜一下最新的智能手机并列出前三名”,剩下的规划与执行链路,AI会自动帮你搞定。编写复杂脚本?那已经是过去式了。
- 智能交互:导航、点击、填表、滚动……这些基础操作自不在话下。更关键的是,得益于Gemini模型,它能理解页面的动态变化。页面弹了个窗?元素加载慢了点?它都能适应,交互逻辑相当灵活。
- 双环境支持:它提供了两种“驾驶舱”,适应不同场景:
- Playwright(本地运行):在本地直接调用Chrome浏览器,适合处理涉及本地文件或对隐私要求高的任务。
- Browserbase(云环境):连接云端的浏览器实例,适合需要稳定云资源、长时运行或进行分布式操作的项目。
- 调试友好:执行过程“有图有真相”。支持实时截图和鼠标轨迹高亮,你可以像看回放一样监控每一步操作,哪里出了问题一目了然,调试和优化效率大大提升。
- AI 大模型集成:这不是简单的接口调用,而是与Gemini API和Vertex AI的深度集成。这让它具备了强大的语义理解和上下文推理能力,面对复杂的多步指令和动态多变的网页内容,也能从容应对。
如何使用Computer Use Preview
上手这套工具并不复杂,跟着下面几步走,你很快就能看到效果:
- 准备工作:首先,访问它的GitHub项目页面,把源码下载到本地并解压。
- 设置运行环境:确保你的电脑安装了Python(建议3.8及以上版本)。创建一个独立的虚拟环境并激活它,这是保证项目依赖纯净的好习惯。
- 安装依赖:进入项目文件夹,运行安装命令,把所需的Python包以及Playwright浏览器一并装好。
- 配置 API 密钥:去Google Cloud平台申请一个Gemini API密钥,然后将其设置为系统的环境变量。这是工具获得“大脑”的关键一步。
- 运行工具:激动人心的时刻到了。现在,直接用自然语言指令启动它,比如输入:“访问百度,搜索‘今日天气’并打开第一个结果。”接下来,就看它的表演了。
- 可选配置:你可以根据需求,指定使用本地Playwright还是云端的Browserbase环境,并调整超时时间、模型版本等参数,以获取最佳性能。
Computer Use Preview的项目地址
- GitHub仓库:所有的源代码、详细文档和更新日志都在这里:https://github.com/google-gemini/computer-use-preview
- 在线体验地址:如果你想快速尝鲜,无需配置本地环境,可以直接通过 Browserbase 提供的在线服务进行体验。
Computer Use Preview的应用场景
这么一款工具,到底能用在哪?它的应用场景其实非常接地气:
- Web 自动化测试:让自动化测试变得更“智能”。它可以快速验证按钮点击、表单提交、流程跳转等功能是否正常,尤其擅长处理那些元素ID不固定或动态加载的页面。
- 数据采集:告别手动复制粘贴。无论是监测商品价格、爬取新闻列表,还是收集公开的行业数据,它都能像一名不知疲倦的助手,自动帮你完成抓取。
- 跨网站数据搬运:这才是它真正发挥威力的地方。比如,把某个论坛的热帖自动同步到你的内容管理系统,或者将电商平台的订单信息搬运到内部报表中,它能打通不同平台间的数据流。
- 日常任务自动化:那些每天都要重复的网页操作,比如登录系统查报表、定时到某个网站签到、批量下载文件等,完全可以交给它来定时执行,为你省下大量时间和精力。
- 视觉交互任务:基于图像识别,它能完成更“精细”的活。例如,在一個设计工具网站上,识别并拖拽特定的图标组件;或者对网页上的图片进行自动分类。这些任务,传统自动化工具很难实现。
