AI Agents专用浏览器自动化CLI工具22K星标大幅降低93%上下文
如何让AI Agent高效操作浏览器,是当前开发者面临的核心技术挑战。传统自动化工具并非为AI场景设计,在上下文理解与指令执行上存在显著效率瓶颈。近期,Vercel开源了一款名为agent-browser的CLI工具,为这一难题提供了极具创新性的解决方案。官方数据显示,它能将AI驱动浏览器自动化所需的上下文数据量降低高达93%,这背后的技术原理是什么?

简而言之,agent-browser是一款专为AI Agents优化的浏览器自动化命令行工具。它并非通用爬虫框架,其核心设计理念完全聚焦于“如何让大型语言模型更省力、更精准地理解和控制浏览器交互”。
agent-browser 的核心优势与特点
那么,这款工具如何实现效率的飞跃?关键在于其以下几项突破性设计:
- 功能全面覆盖:集成了导航、表单填写、元素点击、页面截图等超过50种浏览器操作指令,满足绝大多数自动化测试与数据抓取需求。
- 全平台兼容:完美支持macOS、Windows及Linux操作系统,极大简化了跨环境部署与配置流程。
- 基于引用的智能快照:这是其大幅节省Token的关键。执行
snapshot命令后,返回的不是冗长的HTML源码或完整DOM树,而是一个附带唯一引用标识(refs)的简洁可访问性树。AI只需记住类似@e26的引用符,即可精确定位目标元素,彻底避免了重复解析复杂页面结构的开销。 - 为AI原生优化:所有输出格式均经过特殊设计,旨在为LLM提供最精简、最相关的上下文信息,从而显著降低提示词消耗与API调用成本。
- 多会话隔离:支持创建多个独立的浏览器实例,每个实例可维持不同的用户登录状态与Cookie,非常适合需要多账户管理或环境隔离的复杂自动化任务。
如何安装 agent-browser
安装过程十分简便。首先,请确保您的系统已安装Node.js运行环境。
第一步,通过npm全局安装该CLI工具:
npm install -g agent-browser
安装成功后,需执行以下命令以下载必需的Chromium浏览器内核:
agent-browser install
此过程将自动下载Playwright框架及对应的Chromium版本。您将看到类似如下的下载进度提示,请等待其完成:
Installing Chromium browser...
Need to install the following packages:
playwright@1.58.2
Ok to proceed? (y) y
Downloading Chrome for Testing 145.0.7632.6 (playwright chromium v1208) from https://cdn.playwright.dev/builds/cft/145.0.7632.6/mac-arm64/chrome-mac-arm64.zip
162.3 MiB [====================] 100% 0.0s
Chrome for Testing 145.0.7632.6 (playwright chromium v1208) downloaded to /Users/abao/Library/Caches/ms-playwright/chromium-1208
...
✓ Chromium installed successfully
agent-browser 基础使用教程
安装完成后,即可体验其核心工作流。整个操作逻辑清晰直观。
1. 打开目标网页
agent-browser open https://agent-browser.dev/
成功后将返回简洁的确认信息。
2. 获取页面可访问性树(智能快照)
这是提升效率的核心步骤。使用-i参数获取带引用标识的快照:
agent-browser snapshot -i
输出不再是复杂的HTML代码,而是结构清晰的元素列表,每个可交互元素都附带了唯一的ref标识(如[ref=e26]):
- link "Made with love by Vercel" [ref=e1]
- link "agent-browser" [ref=e2]
- link "16k" [ref=e3]
...
- button "Ask AI" [ref=e26]
3. 通过引用标识进行元素交互
现在,若要点击“16k”链接,无需向AI描述其CSS选择器或XPath路径,直接使用对应的ref即可:
agent-browser click @e3
4. 对网页进行截图
agent-browser screenshot ./page.png
5. 关闭浏览器实例
agent-browser close
集成AI技能(Skills)实现自然语言操控
单独使用CLI已足够强大,但agent-browser的真正潜力在于与AI编程助手(如Cursor、Claude Code)的深度集成。通过安装其Skill,您可以直接使用自然语言向AI下达复杂的浏览器操作指令。
安装Skill的命令如下:
npx skills add vercel-labs/agent-browser --skill agent-browser
安装后,以在Claude Code中调用指定模型(例如qwen3.5-35b-a3b)为例:
claude --model qwen3.5-35b-a3b
之后,您只需输入一句自然语言指令,例如:“将 https://agent-browser.dev/ 网页截图保存到当前目录”。AI便会自动规划步骤,调用agent-browser的技能来执行:
❯ Sa ve a screenshot of the https://agent-browser.dev/ webpage to the current directory.
⎿ Initializing…
⎿ Invalid tool parameters
⏺ Skill(agent-browser)
⎿ Successfully loaded skill · 2 tools allowed
⏺ I'll na vigate to the webpage and take a screenshot.
⏺ Bash(agent-browser open https://agent-browser.dev &&
agent-browser wait --load networkidle && agent-browser
screenshot screenshot.png)
⎿ ✓ Headless Browser Automation for AI
https://agent-browser.dev/
✓ Done
✓ Screenshot sa ved to screenshot.png
整个过程实现全自动化,开发者得以从繁琐的脚本编写中解放,只需专注于定义任务目标。
总结与展望
以上演示的仅是agent-browser的基础功能。实际上,它的能力边界更为广阔:例如,它可以控制iOS模拟器中的Safari浏览器,用于移动端Web应用的兼容性测试;它还支持Chrome DevTools Protocol模式,能够轻松连接本地或远程已开启的浏览器进行实时调试。
此外,Vercel团队围绕其生态还提供了其他实用的Skill,如dogfood、electron和slack等,进一步拓展了AI Agent在软件测试、桌面应用自动化及团队协作等场景的应用。如果您正在寻找一种能显著提升AI与浏览器交互智能性与效率的解决方案,那么agent-browser及其丰富的技能生态,无疑是一个值得您深入研究和采用的强大工具。
相关攻略
Excel数据分类汇总全攻略:三种核心方法提升分析效率 面对庞杂的业务数据,如何快速将其转化为清晰的统计信息,是职场人士的必备技能。Excel内置的多种分类汇总工具,正是解决这一痛点的关键。掌握这些技巧,不仅能大幅提升数据处理速度,更能让业务洞察一目了然。本文将系统讲解三种最实用的Excel分类汇总
百度发布文心大模型X1 1,通过混合强化学习与框架优化,显著提升了事实准确性、指令遵循等核心能力,有效缓解大模型的“幻觉”问题,推动其实用化发展。
AI生成PPT软件:从入门到精通的完整指南 在当今职场与学术领域,制作一份引人入胜的PPT已成为一项核心技能。面对时间紧迫、任务繁重的挑战,传统手动设计往往耗时费力。此时,AI生成PPT软件应运而生,它如同一位高效的全能设计助手,能够将您的创意迅速转化为专业级演示文稿。无论是准备课堂展示、工作汇报还
开源工具video-use通过自然对话驱动视频剪辑,自动完成去口癖、加字幕、调色等核心环节。其创新在于将视频信息转化为结构化文本供大语言模型处理,大幅提升效率。工具采用音频驱动、视觉辅助的设计原则,并引入自评机制确保输出质量,为创作者提供高效免费的智能剪辑方案。
适合需求: 员工制度管理的年度总结 又到一年复盘时。对于任何一家公司而言,员工制度管理都是保障组织顺畅运转的基石。过去这一年,围绕制度的制定、落地与维护,管理团队投入了大量精力,目标很明确:打造一个更有序、更高效的工作环境。 范文 Demo: 员工制度管理的年度总结 制度是组织的“操作系统”,过去一
热门专题
热门推荐
止损是保障交易账户生存的刚性底线,必须在开仓前设定并严格执行;止盈则是实现收益的手段,可采用阶梯式或动态策略管理。人性对损失的厌恶使止损执行更为困难,需借助系统工具和复盘纪律来克服。确保生存优先,再追求盈利,是交易中的核心原则。
小米米家除螨仪2Pro近期价格创新低,叠加优惠后入手价约198元。产品采用双尘杯设计,吸力达16kPa,支持高频拍打与智能尘螨感应,宣称除螨除菌率较高。促销期间性价比凸显,适合有需求的消费者关注。
荣耀平板20于5月27日全渠道开售,主打学生市场。其配备12 1英寸3K类纸护眼屏,支持类纸书写体验与七大护眼技术。内置AI备考助手YOYO,可辅助课堂笔记与知识梳理。首销期间国补后起售价1614 15元,并有限时赠李昀锐定制周边礼包等优惠。
具身智能执行长时程任务时,记忆能力是关键瓶颈。为系统评估机器人记忆,多所高校联合推出RoboMemArena基准,涵盖物体转移、遮挡、计数与顺序执行四类场景,包含26项长任务及真机测评。配套基线模型PrediMem通过显式管理记忆缓冲区,在仿真与真实任务中均显著优于传统方法,验证了记忆对机器人长程可靠执。
5月27日,中科星图股价下跌3 01%,收于51 28元。华宝基金旗下华宝上证科创板人工智能ETF重仓该股,一季度末持有50 32万股,为第八大重仓股。按当日跌幅计算,该基金持仓单日浮亏约80 01万元。该基金今年以来收益率27 82%,表现良好。





