网页控制新范式：阿里开源 Page Agent，让大模型读懂 DOM_AI热点日报

网页控制新范式：阿里开源 Page Agent，让大模型读懂 DOM

类型：热点整理2026-07-03

在浏览器自动化领域，开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具，通过复杂的截图或底层协议来“强行”驱动网页。近日，阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库，为这一流程带来了全新的思路:它将浏览器自动化从

在浏览器自动化的实践领域，开发者长期面临一个核心痛点：必须借助 Selenium、Playwright 或 Puppeteer 等外部工具，通过截图或底层协议“强行”驱动网页，流程不仅繁琐而且容易出错。近日，阿里巴巴开源了一款名为 Page Agent 的 Ja vaScript 客户端库，为这一传统路径带来了全新思路——它将浏览器自动化的核心从外部驱动转变为页面内部的直接操控。形象地说，你不再需要隔着窗户指挥，而是直接进入屋内动手操作。

不过话说回来，Page Agent 虽然在易用性上令人眼前一亮，但其技术边界同样清晰。目前该库仅专注于单页面范围内的交互，跨页面或跨域操作尚未纳入考量。另外值得警惕的是，它基于提示词的权限管控——比如“禁止自动支付”这类设置——本质上是一种引导性限制，而非硬性的逻辑隔离。换句话说，它帮你划了一条线，但能否守住，最终仍取决于开发者自身。因此，凡是涉及资金划拨或数据修改这类高风险操作，服务端应有的校验机制一个都不能省略，安全底线不能只依赖前端口头约束。

目前，Page Agent 已在 GitHub 上以 MIT 协议开源。对于那些希望快速为自有应用嵌入 AI 操作能力，又不想在昂贵多模态模型上投入过多的中小团队而言，这无疑是一个高效且务实的工程选项。

来源：https://news.aibase.com/zh/news/29352

其他

延伸阅读

补充最近整理过的热点入口。

网页控制新范式：阿里开源 Page Agent，让大模型读懂 DOM

相关热点

延伸阅读