BrowserBC是什么?浏览器自动化技能卡开源项目详解
先给出核心结论:BrowserBC 是 Einsia AI 旗下 Na vers Lab 开源的一个创新项目,其目标非常明确——让 Web Agent 学会“复制”人类在浏览器中的操作经验。具体操作流程是:你只需在浏览器里亲手完成一遍任务,系统便会自动将这段操作过程“蒸馏”成一张结构化的“技能卡”。此后,任何模型都可以凭借这张卡去执行相同的任务。简单来说,就是“做一次,复用无数次”。
BrowserBC的核心功能:轨迹录制、智能蒸馏与技能管理
- 轨迹录制:通过浏览器扩展,完整记录任务全过程。页面截图、DOM 快照、用户动作(点击、输入、跳转)、页面反馈以及最终状态,一个不落,确保数据完整可追溯。
- 智能蒸馏:原始轨迹往往包含大量噪声,系统会先进行清洗和去噪处理,然后按语义切分成连贯的子过程,再转写成结构化的自然语言技能卡。这一步骤的关键在于:它会剥离掉坐标、选择器这类脆弱细节,只保留“该做什么、怎么判断完成、失败了怎么办”这类可迁移的过程性知识,从而大幅提升技能的通用性。
- 技能图管理:海量技能不会杂乱无章地存放,而是被组织成一个可扩展的技能图(skill graph)。通过语义相似度自动合并、特化、链接相关技能,有效避免重复和冗余,构建起不断生长的知识体系。
- 技能检索与执行:Agent 拿到技能卡后,不再机械复刻坐标,而是根据卡上的指导,结合实时页面状态自主落地操作,灵活性和适应性大大提升。
- 本地部署:提供 Journey Forge Local 版本,纯 Python 运行,数据全部本地存储,保障隐私安全。同时支持与 Claude Code 和 Claude Desktop 无缝集成。
如何使用BrowserBC:从本地部署到技能录制与调用
- 配置并运行本地服务器:复制配置文件,设置好 LLM API Key,启动服务器后访问 http://127.0.0.1:8099/ 控制面板即可开始使用。
- 构建并加载浏览器扩展:在
extension目录下安装依赖并进行构建,之后在 Chrome 扩展管理中以开发者模式加载extension/dist/chrome-mv3,即可完成扩展安装。 - 录制任务:使用扩展录制浏览器操作,停止后标记任务意图并上传,系统会自动保存完整的操作轨迹。
- 自动蒸馏:后台流水线会自动完成 atomize→classify→bucket→distill→install 这几个步骤,大约 1-3 分钟就能生成一张可直接使用的技能卡。
- 使用技能:
- Claude Code:技能会自动安装到
~/.claude/skills/目录下,开箱即用。 - Claude Desktop:从控制面板下载
.zip文件,在 Settings → Skills 中上传即可完成导入。
- Claude Code:技能会自动安装到
- 配置浏览器执行(可选):在控制面板中配置 Playwright MCP,这样 Claude Desktop 就能实现实际点击、输入和导航等真实浏览器操作。
BrowserBC的核心优势:技能可迁移、高成功率与隐私安全
- 技能可迁移:技能是自然语言形式的“过程性先验”,可以在不同模型之间自由传递和复用。强模型蒸馏一次,小模型也能低成本复用,极大降低推理开销。
- 剥离脆弱细节:不克隆坐标或 DOM 选择器,而是克隆“做什么 + 怎么判断完成”。这意味着即使页面布局发生变化,技能依然能够举一反三,具备强大的鲁棒性。
- 显著提升成功率:数据极具说服力。在 WebArena-Hard 上,成功率从 60.5% 提升至 81.4%(提升 20.9%);在 ClawBench 上,从 32.9% 提升至 68.4%(提升 35.5%),效果显著。
- 提升交互效率:平均工具调用次数从 31.2 次降至 22.7 次(减少 27.3%),无效试探性导航大幅减少,任务执行更加高效流畅。
- 跨域迁移潜力:过程性先验可以跨越浏览器边界,初步研究显示,这种能力还能迁移到 OSWorld 桌面环境,应用前景广阔。
- 数据隐私安全:本地部署版本所有数据存储在本地,只有蒸馏时才调用配置的 LLM API,安全性有充分保障,适合对数据敏感的企业和个人用户。
BrowserBC的官网地址与资源链接
- 项目博客:https://lab.einsia.ai/browserbc/
- GitHub 仓库:https://github.com/Einsia/Browser-BC
- 论文:https://lab.einsia.ai/browserbc/paper
BrowserBC与同类竞品对比:传统RPA、Playwright与通用Web Agent
| 维度 | BrowserBC | 传统 RPA / 按键精灵 | Playwright / MCP 工具 | 通用 Web Agent(如 Claude/Codex) |
|---|---|---|---|---|
| 核心定位 | 人类轨迹 → 可复用技能 | 录制坐标 → 机械回放 | 浏览器控制 API | 从零探索网页 |
| 复用方式 | 自然语言技能卡,语义化复用 | 固定坐标/选择器回放 | 需编写代码脚本 | 每次任务重新摸索 |
| 页面变化适应性 | 强(剥离脆弱细节) | 极弱(布局一变即失效) | 中等(需维护选择器) | 强(实时感知页面) |
| 知识积累 | 可积累技能图,持续扩展 | 脚本堆积,难以管理 | 依赖代码库维护 | 无积累,每次从零开始 |
| 执行成本 | 强模型蒸馏一次,小模型便宜复用 | 运行成本低 | 开发成本高 | 每次需调用最强模型 |
| 数据隐私 | 本地部署,数据不出机器 | 本地运行 | 本地/云端均可 | 通常依赖云端 API |
BrowserBC的典型应用场景:旅行预订、电商购物与跨站信息整合
- 旅行预订与比价:在 Airbnb、Booking 等预订网站输入时间、地点、人数,应用筛选器(评分、价格、设施),阅读搜索结果并排序,快速找出最优住宿选项。
- 电商购物与筛选:在购物平台搜索商品、应用多重筛选条件(价格区间、品牌、评分)、对比商品详情、加入购物车并完成结算,全程自动化执行。
- 后台管理操作:在电商后台、CMS 系统或管理面板中执行商品上架、订单处理、库存更新、用户权限配置等重复性管理任务,大幅提升运营效率。
- 社区论坛互动:在 Reddit 等论坛中搜索话题、筛选帖子、参与讨论、收集信息或执行版主管理操作,实现社区运营自动化。
- 跨站点信息整合:需要从多个网站采集、对比并整合信息的任务,比如跨平台比价、多源数据汇总、竞品监控,一键搞定。
- 开发工具使用:在 GitHub、GitLab 等开发平台执行代码仓库操作(登录、创建项目、提交 Issue、合并请求)、CI/CD 配置或文档查阅,让开发流程更加顺畅。
