首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
AI Agents专用浏览器自动化CLI工具22K星标大幅降低93%上下文

AI Agents专用浏览器自动化CLI工具22K星标大幅降低93%上下文

热心网友
64
转载
2026-05-28

如何让AI Agent高效操作浏览器,是当前开发者面临的核心技术挑战。传统自动化工具并非为AI场景设计,在上下文理解与指令执行上存在显著效率瓶颈。近期,Vercel开源了一款名为agent-browser的CLI工具,为这一难题提供了极具创新性的解决方案。官方数据显示,它能将AI驱动浏览器自动化所需的上下文数据量降低高达93%,这背后的技术原理是什么?

22.4K Stars,减少 93% 上下文。AI Agents 专用浏览器自动化 CLI 真强!

简而言之,agent-browser是一款专为AI Agents优化的浏览器自动化命令行工具。它并非通用爬虫框架,其核心设计理念完全聚焦于“如何让大型语言模型更省力、更精准地理解和控制浏览器交互”。

agent-browser 的核心优势与特点

那么,这款工具如何实现效率的飞跃?关键在于其以下几项突破性设计:

  • 功能全面覆盖:集成了导航、表单填写、元素点击、页面截图等超过50种浏览器操作指令,满足绝大多数自动化测试与数据抓取需求。
  • 全平台兼容:完美支持macOS、Windows及Linux操作系统,极大简化了跨环境部署与配置流程。
  • 基于引用的智能快照:这是其大幅节省Token的关键。执行snapshot命令后,返回的不是冗长的HTML源码或完整DOM树,而是一个附带唯一引用标识(refs)的简洁可访问性树。AI只需记住类似@e26的引用符,即可精确定位目标元素,彻底避免了重复解析复杂页面结构的开销。
  • 为AI原生优化:所有输出格式均经过特殊设计,旨在为LLM提供最精简、最相关的上下文信息,从而显著降低提示词消耗与API调用成本。
  • 多会话隔离:支持创建多个独立的浏览器实例,每个实例可维持不同的用户登录状态与Cookie,非常适合需要多账户管理或环境隔离的复杂自动化任务。

如何安装 agent-browser

安装过程十分简便。首先,请确保您的系统已安装Node.js运行环境。

第一步,通过npm全局安装该CLI工具:

npm install -g agent-browser

安装成功后,需执行以下命令以下载必需的Chromium浏览器内核:

agent-browser install

此过程将自动下载Playwright框架及对应的Chromium版本。您将看到类似如下的下载进度提示,请等待其完成:

Installing Chromium browser...
Need to install the following packages:
playwright@1.58.2
Ok to proceed? (y) y
Downloading Chrome for Testing 145.0.7632.6 (playwright chromium v1208) from https://cdn.playwright.dev/builds/cft/145.0.7632.6/mac-arm64/chrome-mac-arm64.zip
162.3 MiB [====================] 100% 0.0s
Chrome for Testing 145.0.7632.6 (playwright chromium v1208) downloaded to /Users/abao/Library/Caches/ms-playwright/chromium-1208
...
✓ Chromium installed successfully

agent-browser 基础使用教程

安装完成后,即可体验其核心工作流。整个操作逻辑清晰直观。

1. 打开目标网页

agent-browser open https://agent-browser.dev/

成功后将返回简洁的确认信息。

2. 获取页面可访问性树(智能快照)

这是提升效率的核心步骤。使用-i参数获取带引用标识的快照:

agent-browser snapshot -i

输出不再是复杂的HTML代码,而是结构清晰的元素列表,每个可交互元素都附带了唯一的ref标识(如[ref=e26]):

- link "Made with love by Vercel" [ref=e1]
- link "agent-browser" [ref=e2]
- link "16k" [ref=e3]
...
- button "Ask AI" [ref=e26]

3. 通过引用标识进行元素交互

现在,若要点击“16k”链接,无需向AI描述其CSS选择器或XPath路径,直接使用对应的ref即可:

agent-browser click @e3

4. 对网页进行截图

agent-browser screenshot ./page.png

5. 关闭浏览器实例

agent-browser close

集成AI技能(Skills)实现自然语言操控

单独使用CLI已足够强大,但agent-browser的真正潜力在于与AI编程助手(如Cursor、Claude Code)的深度集成。通过安装其Skill,您可以直接使用自然语言向AI下达复杂的浏览器操作指令。

安装Skill的命令如下:

npx skills add vercel-labs/agent-browser --skill agent-browser

安装后,以在Claude Code中调用指定模型(例如qwen3.5-35b-a3b)为例:

claude --model qwen3.5-35b-a3b

之后,您只需输入一句自然语言指令,例如:“将 https://agent-browser.dev/ 网页截图保存到当前目录”。AI便会自动规划步骤,调用agent-browser的技能来执行:

❯ Sa ve a screenshot of the https://agent-browser.dev/ webpage to the current directory.
  ⎿  Initializing…
  ⎿  Invalid tool parameters

⏺ Skill(agent-browser)
  ⎿  Successfully loaded skill · 2 tools allowed

⏺ I'll na vigate to the webpage and take a screenshot.

⏺ Bash(agent-browser open https://agent-browser.dev &&
      agent-browser wait --load networkidle && agent-browser
      screenshot screenshot.png)
  ⎿  ✓ Headless Browser Automation for AI
       https://agent-browser.dev/
     ✓ Done
     ✓ Screenshot sa ved to screenshot.png

整个过程实现全自动化,开发者得以从繁琐的脚本编写中解放,只需专注于定义任务目标。

总结与展望

以上演示的仅是agent-browser的基础功能。实际上,它的能力边界更为广阔:例如,它可以控制iOS模拟器中的Safari浏览器,用于移动端Web应用的兼容性测试;它还支持Chrome DevTools Protocol模式,能够轻松连接本地或远程已开启的浏览器进行实时调试。

此外,Vercel团队围绕其生态还提供了其他实用的Skill,如dogfood、electron和slack等,进一步拓展了AI Agent在软件测试、桌面应用自动化及团队协作等场景的应用。如果您正在寻找一种能显著提升AI与浏览器交互智能性与效率的解决方案,那么agent-browser及其丰富的技能生态,无疑是一个值得您深入研究和采用的强大工具。

来源:https://www.53ai.com/news/OpenSourceLLM/2026031605794.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Excel数据分类汇总技巧详解高效办公必备指南
AI教程
Excel数据分类汇总技巧详解高效办公必备指南

Excel数据分类汇总全攻略:三种核心方法提升分析效率 面对庞杂的业务数据,如何快速将其转化为清晰的统计信息,是职场人士的必备技能。Excel内置的多种分类汇总工具,正是解决这一痛点的关键。掌握这些技巧,不仅能大幅提升数据处理速度,更能让业务洞察一目了然。本文将系统讲解三种最实用的Excel分类汇总

热心网友
05.28
大模型技术发展现状与未来趋势分析
AI资讯
大模型技术发展现状与未来趋势分析

百度发布文心大模型X1 1,通过混合强化学习与框架优化,显著提升了事实准确性、指令遵循等核心能力,有效缓解大模型的“幻觉”问题,推动其实用化发展。

热心网友
05.28
AI生成PPT软件使用技巧:轻松打造高吸引力演示文稿
AI教程
AI生成PPT软件使用技巧:轻松打造高吸引力演示文稿

AI生成PPT软件:从入门到精通的完整指南 在当今职场与学术领域,制作一份引人入胜的PPT已成为一项核心技能。面对时间紧迫、任务繁重的挑战,传统手动设计往往耗时费力。此时,AI生成PPT软件应运而生,它如同一位高效的全能设计助手,能够将您的创意迅速转化为专业级演示文稿。无论是准备课堂展示、工作汇报还

热心网友
05.28
Claude Code视频剪辑教程:免费开源工具自动去口癖加字幕调色
AI资讯
Claude Code视频剪辑教程:免费开源工具自动去口癖加字幕调色

开源工具video-use通过自然对话驱动视频剪辑,自动完成去口癖、加字幕、调色等核心环节。其创新在于将视频信息转化为结构化文本供大语言模型处理,大幅提升效率。工具采用音频驱动、视觉辅助的设计原则,并引入自评机制确保输出质量,为创作者提供高效免费的智能剪辑方案。

热心网友
05.28
员工年度总结高效撰写指南 AI工具提升制度管理效率
AI教程
员工年度总结高效撰写指南 AI工具提升制度管理效率

适合需求: 员工制度管理的年度总结 又到一年复盘时。对于任何一家公司而言,员工制度管理都是保障组织顺畅运转的基石。过去这一年,围绕制度的制定、落地与维护,管理团队投入了大量精力,目标很明确:打造一个更有序、更高效的工作环境。 范文 Demo: 员工制度管理的年度总结 制度是组织的“操作系统”,过去一

热心网友
05.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

止盈与止损哪个更重要 交易心理学中的关键决策指南
web3.0
止盈与止损哪个更重要 交易心理学中的关键决策指南

止损是保障交易账户生存的刚性底线,必须在开仓前设定并严格执行;止盈则是实现收益的手段,可采用阶梯式或动态策略管理。人性对损失的厌恶使止损执行更为困难,需借助系统工具和复盘纪律来克服。确保生存优先,再追求盈利,是交易中的核心原则。

热心网友
05.28
小米除螨仪2 Pro国补价198元 上市429元现历史新低
科技数码
小米除螨仪2 Pro国补价198元 上市429元现历史新低

小米米家除螨仪2Pro近期价格创新低,叠加优惠后入手价约198元。产品采用双尘杯设计,吸力达16kPa,支持高频拍打与智能尘螨感应,宣称除螨除菌率较高。促销期间性价比凸显,适合有需求的消费者关注。

热心网友
05.28
荣耀平板20正式开售 限时赠送李昀锐定制礼包
科技数码
荣耀平板20正式开售 限时赠送李昀锐定制礼包

荣耀平板20于5月27日全渠道开售,主打学生市场。其配备12 1英寸3K类纸护眼屏,支持类纸书写体验与七大护眼技术。内置AI备考助手YOYO,可辅助课堂笔记与知识梳理。首销期间国补后起售价1614 15元,并有限时赠李昀锐定制周边礼包等优惠。

热心网友
05.28
具身智能机器人记忆系统RoboMemArena深度评测
AI资讯
具身智能机器人记忆系统RoboMemArena深度评测

具身智能执行长时程任务时,记忆能力是关键瓶颈。为系统评估机器人记忆,多所高校联合推出RoboMemArena基准,涵盖物体转移、遮挡、计数与顺序执行四类场景,包含26项长任务及真机测评。配套基线模型PrediMem通过显式管理记忆缓冲区,在仿真与真实任务中均显著优于传统方法,验证了记忆对机器人长程可靠执。

热心网友
05.28
华宝基金重仓中科星图浮亏80万 股价下跌3.01%引关注
AI资讯
华宝基金重仓中科星图浮亏80万 股价下跌3.01%引关注

5月27日,中科星图股价下跌3 01%,收于51 28元。华宝基金旗下华宝上证科创板人工智能ETF重仓该股,一季度末持有50 32万股,为第八大重仓股。按当日跌幅计算,该基金持仓单日浮亏约80 01万元。该基金今年以来收益率27 82%,表现良好。

热心网友
05.28