游乐游手机版
首页/AI热点日报/热点详情

告别“代码重构”焦虑:阿里开源 Page Agent,让大模型读懂网页底层逻辑

类型:热点整理2026-07-03
在浏览器自动化开发的漫长道路上,开发者们似乎总在重复“造轮子”。无论是通过复杂的屏幕截图去“看”网页,还是依赖底层协议去“强行驱动”,往往由于网页结构的动态变化而显得力不从心。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一行业难题提供了一种全新的破局思

在浏览器自动化这条路上,开发者们似乎总在跟“重复造轮子”较劲。要么截屏去“看懂”网页,费时费力;要么靠底层协议强行驱动,结果网页结构稍微一变,之前的代码就白写了。最近阿里巴巴开源了一个叫 Page Agent 的 JavaScript 客户端库,倒是带来了一种全新的解法——它不打算从外部“暴力破解”,而是让大模型直接钻进网页内部,读懂 DOM 结构。

核心突破在于一个叫“DOM 脱水”的技术。传统的做法要让 AI 识别页面,通常得截屏、上多模态模型,计算量巨大不说,关键交互信息还容易丢。Page Agent 的思路完全不同:它直接运行在网页内部,把复杂臃肿的 DOM 树压缩成一份轻量级的纯文本映射,叫 FlatDomTree。打个比方,这就像给 AI 画了一张高精度的交互地图,模型不用处理视觉渲染,光靠这张地图就能精准完成点按钮、填表单这样的操作。

image.png

目前这个工具已经在 GitHub 上以 MIT 协议开源。随着它的发布,开发者终于有望告别昂贵的多模态算力消耗,用更务实的手段给应用装上真正能“感知网页”的智能体。这么说吧,AI 网页自动化这件事,正在走向轻量化、普及化的新阶段。

来源:https://news.aibase.com/zh/news/29359

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。