游乐游手机版
首页/AI热点日报/热点详情

网页控制新范式:阿里开源 Page Agent,让大模型读懂 DOM

类型:热点整理2026-07-03
在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具,通过复杂的截图或底层协议来“强行”驱动网页。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一流程带来了全新的思路:它将浏览器自动化从

在浏览器自动化的实践领域,开发者长期面临一个核心痛点:必须借助 Selenium、Playwright 或 Puppeteer 等外部工具,通过截图或底层协议“强行”驱动网页,流程不仅繁琐而且容易出错。近日,阿里巴巴开源了一款名为 Page Agent 的 Ja vaScript 客户端库,为这一传统路径带来了全新思路——它将浏览器自动化的核心从外部驱动转变为页面内部的直接操控。形象地说,你不再需要隔着窗户指挥,而是直接进入屋内动手操作。

image.png

不过话说回来,Page Agent 虽然在易用性上令人眼前一亮,但其技术边界同样清晰。目前该库仅专注于单页面范围内的交互,跨页面或跨域操作尚未纳入考量。另外值得警惕的是,它基于提示词的权限管控——比如“禁止自动支付”这类设置——本质上是一种引导性限制,而非硬性的逻辑隔离。换句话说,它帮你划了一条线,但能否守住,最终仍取决于开发者自身。因此,凡是涉及资金划拨或数据修改这类高风险操作,服务端应有的校验机制一个都不能省略,安全底线不能只依赖前端口头约束。

目前,Page Agent 已在 GitHub 上以 MIT 协议开源。对于那些希望快速为自有应用嵌入 AI 操作能力,又不想在昂贵多模态模型上投入过多的中小团队而言,这无疑是一个高效且务实的工程选项。

来源:https://news.aibase.com/zh/news/29352

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。