龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA
让AI像人类一样“冲浪”:A venir-Web如何破解网页操作的三大难题
你是否遇到过这种情况:让AI助手帮你完成一个稍复杂的网页操作,比如预订一张特定条件的机票,或者填写一份多步骤的在线表格,结果它要么点错按钮,要么在页面间迷失方向,最后只能尴尬地告诉你“任务失败”?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这正是当前许多网页智能体(Web Agent)面临的真实困境。不过,最近来自伦敦大学学院(UCL)、普林斯顿大学和爱丁堡大学的研究团队,带来了一套名为A venir-Web的新方案,目标就是让现有的多模态大模型,能真正像人类一样流畅、可靠地使用网页。

问题到底出在哪?简单来说,现有的Web Agent在面对复杂的网页结构时,常常表现得像个“新手”。它们会被那些嵌套的iframe、Canvas画布或者Shadow DOM搞得晕头转向,导致“定位不准”;在执行多步骤的长程任务时,又因为缺乏对特定网站操作流程的常识,只能“盲目探索”,效率低下;更头疼的是,它们还容易“走着走着就忘了”自己到底要干什么,陷入重复错误的循环。
A venir-Web的巧妙之处在于,它本身不是一个需要从头训练的新模型,而是一套开源的、即插即用的智能体框架(Agent Harness)。在严苛的ONLINE-MIND2WEB基准测试中,它取得了53.7%的成功率,刷新了开源领域的纪录。这意味着,开发者可以轻松地将现有的大模型“装入”这个框架,立刻获得更强的网页操作能力。

Web Agent 的三大难题
研究团队精准地指出了当前Web Agent落地应用的三个核心瓶颈:
元素定位不准(Inaccurate Grounding):过度依赖网页的DOM树结构,一旦遇到非标准元素(如 Canvas、嵌套 iframe)就容易失效,找不到该点的按钮。
缺乏特定站点的流程知识(Site-specific Procedural Knowledge):Agent不懂得像人类一样,先去查查“用户手册”或“攻略”,只能靠试错乱撞,成功率自然不高。
长程任务跟踪与记忆力不稳定(Unstable Memory):在跨页面操作时,容易产生“导航漂移”,忘了核心目标,甚至陷入重复错误的死循环。
针对这些痛点,A venir-Web提出了一套模块化的解决方案。由于它本身是一个框架而非模型,因此天然具备“无需训练”(training-free)的部署优势,降低了使用门槛。
A venir-Web 的 Agent Harness 核心设计

经验模仿规划(Experience-Imitation Planning, EIP)
想想我们自己在操作一个不熟悉的复杂网站时,第一反应是什么?没错,通常是先搜索一下教程或攻略。A venir-Web的EIP模块正是模仿了这一人类行为。
在任务开始前,它会利用大模型自身的在线搜索能力,主动去检索目标网站的帮助中心、用户论坛或相关指南,并将这些信息转化为一个高层次的策略路线图。这种“先读攻略再上手”的方法,极大地减少了智能体的盲目探索时间,也有效规避了那些可能导致任务失败的、不可逆的导航操作。

混合定位专家(Mixture of Grounding Experts, MoGE)
为了解决定位难题,MoGE模块采用了“视觉优先”的原则。它不再纠结于复杂的DOM树解析,而是将整个网页渲染画面视为一张统一的视觉画布,直接基于屏幕坐标进行交互。这种方式,天然地化解了让传统DOM解析派智能体头疼的嵌套iframe等问题。
当然,如果视觉信息模糊或不足怎么办?MoGE还准备了后手:它会触发语义结构推理作为兜底方案。这种“视觉坐标为主,语义理解为辅”的混合策略,让智能体在面对各种千奇百怪的UI设计时,都具备了更强的适应性和鲁棒性。

任务跟踪清单(Task-Tracking Checklist)
为了防止智能体在执行长任务时“跑偏”,研究团队引入了结构化的任务清单机制。它将一个复杂的用户指令,分解为2到6个清晰、可验证的“原子里程碑”。每完成一步操作,系统就会利用一个轻量级模型(如Qwen-3-VL-8B)来实时更新任务状态(待处理、进行中、已完成、已失败)。这就好比给智能体配了一个随时检查进度的项目看板,确保它始终走在正确的轨道上。

自适应记忆(Adaptive Memory)
长上下文带来的“幻觉”和遗忘问题如何解决?A venir-Web采用了分块递归摘要机制。它维持一个固定大小的滑动窗口,将过去的操作历史不断提炼、压缩成抽象的记忆状态。更关键的是,它还专门设置了一个“失败反思缓冲区”,确保智能体能够从过去的错误中真正吸取教训,避免在同一个地方反复跌倒。

实验结果
理论设计得再好,实战表现才是硬道理。研究团队在ONLINE-MIND2WEB这个包含136个真实网站、300个实时任务的严苛基准上进行了测试。
结果令人印象深刻:以Gemini 3 Pro为核心驱动的A venir-Web,取得了53.7%的成功率。相比之前的开源标杆SeeAct(30.0%),这个提升幅度达到了23.7个百分点,堪称飞跃。

不仅如此,它的表现甚至超越了Claude Computer Use 3.7(47.3%)和ACT-1(52.7%)等闭源商业产品,开始逼近OpenAI Operator(58.3%)这类顶级选手的水平。
更值得关注的是其轻量化潜力。即使完全使用开源且轻量的Qwen-3-VL-8B作为内核,A venir-Web依然取得了25.7%的成功率,这个成绩已经与早期基于GPT-4o等重型模型打造的Agent(如Browser Use的26.0%)不相上下。这充分说明,作为一套即插即用的框架,A venir-Web在资源受限的场景下,同样具备可观的实用价值。
消融实验:谁才是关键?
为了验证各个模块的贡献,研究人员进行了系统的消融实验。结果一目了然:
当去除EIP(经验模仿规划)模块后,成功率从48.0%骤降至36.0%,暴跌12个百分点。这强有力地证明了,引入外部知识(如网站攻略)对于完成复杂网页任务具有决定性的意义。
当去除MoGE(混合定位专家)模块后,成功率会从48.0%降至40.0%;而去除自适应记忆模块后,成功率则会进一步降至42.0%甚至36.0%。这说明,精准的定位和稳定的记忆,两者缺一不可,都是保障智能体可靠运行的基础。特别是在长程任务中,递归摘要机制有效避免了因上下文过长而导致的决策混乱。

可以说,A venir-Web为构建具备人类级可靠性的通用数字助理,迈出了坚实的一步。目前,该项目代码已在GitHub上开源。这意味着,开发者无需投入巨资训练新模型,就可以直接利用这套框架,在自动化流程、软件测试乃至下一代智能助手等场景中进行探索和应用。
论文链接:https://arxiv.org/abs/2602.02468
代码链接:https://github.com/Princeton-AI2-Lab/A venir-Web
相关攻略
让AI像人类一样“冲浪”:A venir-Web如何破解网页操作的三大难题 你是否遇到过这种情况:让AI助手帮你完成一个稍复杂的网页操作,比如预订一张特定条件的机票,或者填写一份多步骤的在线表格,结果它要么点错按钮,要么在页面间迷失方向,最后只能尴尬地告诉你“任务失败”? 这正是当前许多网页智能体(
月之暗面发布Kimi k1 5多模态思考模型,实现SOTA级多模态推理能力 AI大模型领域的竞争,正在从单纯的“博闻强记”转向更深层次的“推理思考”能力。这不,新年刚开局,月之暗面就投下了一枚重磅“思考冲击波”。1月20日,该公司正式发布了Kimi全新SOTA模型——k1 5多模态思考模型。这个新名
阶跃星辰发布StepAudio 2 5 ASR:推理提速400%,长音频处理迎来新突破 4月24日,阶跃星辰正式推出了新一代自动语音识别模型StepAudio 2 5 ASR。这款模型主要瞄准语音转写与长音频处理场景,在架构上玩了个新花样——引入了Multi-Token Prediction(多To
等等——高德也闯入具身智能赛道了? 一个国民级的导航应用,突然和机器人、机器狗这些“铁家伙”联系在了一起,这事儿乍一听确实让人有些意外。难道高德也开始跟风搞噱头了? 但深入了解后才发现,这并非噱头。高德不仅拿出了实打实的技术,其成果更是跻身全球第一梯队。 核心在于,高德发布了首个面向AGI的全栈具身
1月20日消息,今日,阶跃星辰宣布多模态模型 Step3-VL-10B 开源。据介绍,仅用 10B 参数量,Step3-VL-10B 在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达
热门专题
热门推荐
一部拿过艾美奖的旗舰剧,拍到第五季还在往配角阵容里塞人。这不是扩张,是修补。 两个新面孔,两种修补逻辑 新加入的两位,分别是Sydney Park饰演的Leah——Cory Ellison的新助理,以及Jeff Wilbusch饰演的Roman——UBN新闻部门的安保主管。 这两个角色的设置,背后是
中国版权协会发布新规,为微短剧版权保护“划重点” 最近,版权领域有个新动向值得关注。中国版权协会正式发布了《关于强化微短剧领域“通知—删除”规则的工作指南》。这份文件的目标很明确:就是要切实维护微短剧作品权利人的合法权益,在权利人、网络服务提供者和用户之间找到一个更好的利益平衡点,从而推动整个微短剧
一部拍了26年的剧集,一对被观众追了20多年的搭档,一个拍了却没播的吻戏——这背后不是八卦,是内容控制权的一场小型博弈。 被剪掉的镜头:拍了两种版本,播出的是“差点亲上” 最近,62岁的玛莉丝卡·哈吉塔向《好莱坞报道者》透露了一个有趣的细节:她和65岁的克里斯托弗·梅洛尼为《法律与秩序:特殊受害者》
总部位于韩国的加密货币风险投资公司哈希已获得阿联酋金融中心阿布扎比全球市场(ADGM)颁发的金融服务许可证。 对于关注亚洲与中东加密资本流动的观察者来说,这无疑是一个值得关注的新动向。总部位于韩国的知名加密货币风险投资公司Hashed,正式获得了阿联酋核心金融中心——阿布扎比全球市场(ADGM)颁发
吉利银河M7远航家今日正式上市,定位于主流精品插电式混合动力SUV 家庭用户的选择清单里,今天又多了一个实力派选手。吉利银河M7远航家正式登场,瞄准的正是主流精品插混SUV市场。新车一口气推出了四款配置,限时指导价定在了10 98万元到13 78万元这个区间,意图很明确:用丰富的配置梯度,精准覆盖不





