Computer Use Preview - 谷歌开源的AI浏览器自动化工具
Computer Use Preview是什么
简单来说,Computer Use Preview 就是谷歌官方开源的一款“AI浏览器操盘手”。它背后的核心引擎是 Gemini 模型的视觉能力,其工作逻辑非常贴近我们人类的操作习惯:先截图看清页面,再由AI分析该干什么,最后执行操作。这套“所见即所得”的模式,让它彻底摆脱了对传统自动化工具所依赖的固定元素定位(比如XPath、CSS选择器)的束缚。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这意味着什么?这意味着它能处理许多传统脚本望而却步的复杂任务,比如在不同网站间搬运数据,或者完成那些依赖视觉判断的交互。有测试为证:在衡量任务完成度的基准测试中,它的得分达到了69%,这个表现已经超过了市面上不少同类工具。
它深度集成了 Gemini API 和 Vertex AI,所以任务理解能力相当强悍。无论是做网页测试、数据采集,还是帮你搞定日常的重复性网页操作,它都能胜任。对于想尝试浏览器自动化又不想碰代码的朋友来说,这无疑是个理想的“零代码”入门神器。
Computer Use Preview的主要功能
它的功能设计,完全围绕着“让机器更像人”这个目标展开:
- 自然语言驱动:你只需要用大白话描述任务,比如“去京东搜一下最新的智能手机并列出前三名”,剩下的规划与执行链路,AI会自动帮你搞定。编写复杂脚本?那已经是过去式了。
- 智能交互:导航、点击、填表、滚动……这些基础操作自不在话下。更关键的是,得益于Gemini模型,它能理解页面的动态变化。页面弹了个窗?元素加载慢了点?它都能适应,交互逻辑相当灵活。
- 双环境支持:它提供了两种“驾驶舱”,适应不同场景:
- Playwright(本地运行):在本地直接调用Chrome浏览器,适合处理涉及本地文件或对隐私要求高的任务。
- Browserbase(云环境):连接云端的浏览器实例,适合需要稳定云资源、长时运行或进行分布式操作的项目。
- 调试友好:执行过程“有图有真相”。支持实时截图和鼠标轨迹高亮,你可以像看回放一样监控每一步操作,哪里出了问题一目了然,调试和优化效率大大提升。
- AI 大模型集成:这不是简单的接口调用,而是与Gemini API和Vertex AI的深度集成。这让它具备了强大的语义理解和上下文推理能力,面对复杂的多步指令和动态多变的网页内容,也能从容应对。
如何使用Computer Use Preview
上手这套工具并不复杂,跟着下面几步走,你很快就能看到效果:
- 准备工作:首先,访问它的GitHub项目页面,把源码下载到本地并解压。
- 设置运行环境:确保你的电脑安装了Python(建议3.8及以上版本)。创建一个独立的虚拟环境并激活它,这是保证项目依赖纯净的好习惯。
- 安装依赖:进入项目文件夹,运行安装命令,把所需的Python包以及Playwright浏览器一并装好。
- 配置 API 密钥:去Google Cloud平台申请一个Gemini API密钥,然后将其设置为系统的环境变量。这是工具获得“大脑”的关键一步。
- 运行工具:激动人心的时刻到了。现在,直接用自然语言指令启动它,比如输入:“访问百度,搜索‘今日天气’并打开第一个结果。”接下来,就看它的表演了。
- 可选配置:你可以根据需求,指定使用本地Playwright还是云端的Browserbase环境,并调整超时时间、模型版本等参数,以获取最佳性能。
Computer Use Preview的项目地址
- GitHub仓库:所有的源代码、详细文档和更新日志都在这里:https://github.com/google-gemini/computer-use-preview
- 在线体验地址:如果你想快速尝鲜,无需配置本地环境,可以直接通过 Browserbase 提供的在线服务进行体验。
Computer Use Preview的应用场景
这么一款工具,到底能用在哪?它的应用场景其实非常接地气:
- Web 自动化测试:让自动化测试变得更“智能”。它可以快速验证按钮点击、表单提交、流程跳转等功能是否正常,尤其擅长处理那些元素ID不固定或动态加载的页面。
- 数据采集:告别手动复制粘贴。无论是监测商品价格、爬取新闻列表,还是收集公开的行业数据,它都能像一名不知疲倦的助手,自动帮你完成抓取。
- 跨网站数据搬运:这才是它真正发挥威力的地方。比如,把某个论坛的热帖自动同步到你的内容管理系统,或者将电商平台的订单信息搬运到内部报表中,它能打通不同平台间的数据流。
- 日常任务自动化:那些每天都要重复的网页操作,比如登录系统查报表、定时到某个网站签到、批量下载文件等,完全可以交给它来定时执行,为你省下大量时间和精力。
- 视觉交互任务:基于图像识别,它能完成更“精细”的活。例如,在一個设计工具网站上,识别并拖拽特定的图标组件;或者对网页上的图片进行自动分类。这些任务,传统自动化工具很难实现。
相关攻略
台铃电动车锁车,真的不耗电吗? 关于电动车锁车后是否还在“偷偷”用电,很多用户心里都有个问号。答案很明确:台铃电动车的锁车状态本身,几乎不产生额外电量消耗。其核心在于一套精心设计的电子防盗系统,在锁止后,整车的主供电电路会被立刻切断,只留下防盗模块、钥匙信号接收器等核心安防单元,以极低的功耗维持待命
老年助听器怎么安装后能用吗? 开门见山地说,给长辈选配助听器,可千万别把它当成“即插即用”的普通电子产品。这本质上是一套严谨的医疗康复流程,核心在于“专业验配”与“科学适应”。没有这两步,再好的设备也可能沦为抽屉里的闲置品。 真正的效能发挥,始于一份精准的听力“地图”——通过纯音测听、声导抗等医学检
高考前冲刺口号 话说回来,每年到了这个时节,教室里、走廊上、甚至学生的课桌一角,总能看到一些凝聚着决心与期盼的句子。它们不仅仅是口号,更像是一股无声的力量,在最后关头为学子们注入信念。下面这份汇集了多年备考智慧的清单,或许能为你带来一些启发。 信念与心态篇 1 Everything is poss
班风口号:胜不骄,败不馁,有志不在年高,但求力争上游 “胜不骄,败不馁”这六个字,分量可不轻。它源自《商君书·战法》,原话是“王者之兵,胜而不骄,败而不怨。”这提醒我们,成功时别让骄傲蒙了眼,失败时也别被沮丧拖垮了脚。保持清醒与韧性,才是长久之道。 紧接着的“有志不在年高”,出自《封神演义》。这话说
下学期中班孩子评语1 1、 这孩子聪明又活泼,课堂上总能看到他高高举起的小手,思维活跃得很,发言特别踊跃。做数学题又快又准,小脑袋转得飞快,语言表达能力也强,还经常主动上来给大家讲故事。要是以后能加强小手的锻炼,让它变得更灵巧,那就更棒了,咱们一起朝着心灵手巧的目标加油吧! 2、 小家伙的口才真不错
热门专题
热门推荐
微软调整XGP战略:降价与《使命召唤》延期入库的背后 最近游戏圈有个大消息:微软宣布下调Xbox Game Pass Ultimate和PC Game Pass的月度订阅价格。具体来看,Ultimate档位从每月29 99美元降到了22 99美元,PC Game Pass则从16 49美元降至13
2026年,Xbox新掌门的第一把火:Game Pass要变“自助餐”了 2026年2月,阿莎·夏尔马接棒菲尔·斯宾塞,成为Xbox的新任CEO。这位新官上任,动作可谓雷厉风行。就在昨天,她点燃了第一把火:Xbox Game Pass Ultimate的月费,从29 99美元直接降到了22 99美元
当明星演员想开游戏工作室:资深同行为何直言“别这么做”? 最近,游戏圈里发生了一场有趣的隔空对话。为《最后生还者》《死亡搁浅》等大作献声的知名演员特洛伊·贝克,在采访中透露了一个雄心勃勃的计划:他想创立自己的游戏工作室,去讲述“自己的故事”。他甚至提到,自己的灵感来源之一,正是曾为《刺客信条:起源》
Steam新款手柄评测视频意外流出,定价信息同步曝光 游戏硬件圈最近有个不大不小的“意外”。根据海外多个科技消息源的报道,Valve即将推出的新款Steam Controller手柄,其评测视频竟然提前在网上泄露了。更关键的是,视频里还直接公布了这款产品的售价:99美元。 事情是这样的:一个名为“T
此前,外网消息源透露,目前PlayStation在PS4和PS5的数字版游戏中加入了DRM验证(正版在线验证)机制。 前情提要>> 简单来说,这个新机制的效果是这样的:从今往后,如果你通过数字商店购买新游戏,那么主机就必须定期连接到PSN网络进行正版验证。具体规则是,如果主机连续超过30天处于离线状





