游乐游手机版
首页/AI热点日报/热点详情

Agent工作流记忆:让AI助手更聪明地完成复杂任务

类型:热点整理2026-05-30
AgentWorkflowMemory方法让AI助手从历史经验中提取可重用工作流,通过基于规则或语言模型的提取、整合与使用,提升复杂网页任务执行效率。在WebArena和Mind2Web测试中,任务成功率显著提升,步骤数减少,跨领域泛化能力突出,离线与在线模式均有效。

最近读到一篇富有启发性的研究论文,题目是《Agent Workflow Memory》,中文可译为“AI助手工作流记忆”。该论文提出了一种创新思路,帮助智能助手(即我们常说的Agent)在处理复杂的网页任务时变得更聪明、更高效。

Agent工作流记忆 - 让AI助手更聪明地完成复杂任务

背景:AI助手在实际应用中的核心难题

首先来了解这项研究的出发点。如今的大语言模型(例如GPT系列)确实表现出色,能够进行对话、回答问题,甚至协助完成一些简单的在线操作。然而,一旦任务变得复杂、需要多步骤才能完成,AI助手就容易出现失误。

举一个直观的例子:让AI助手帮你在线预订一张从北京到上海的机票。听起来很简单?但拆解开来,步骤相当多——打开航空公司网站、选择出发地和目的地、指定日期、筛选航班、填写乘客信息、选座位、支付……这一连串操作,人类因为多次订票早已驾轻就熟;但对AI助手来说,每次执行都像从头摸索。它可能在某个环节卡壳,或者直接遗漏关键步骤。

研究人员总结出现有AI助手的两个主要短板:

  1. 缺乏可复用的工作流程:AI无法像人类一样,从过去的经验中提炼出通用的操作模板,并在新任务中灵活调用。
  2. 无法从失败中学习:每次执行任务都从头开始,既不能借鉴之前成功的方法,也无法避开曾经踩过的坑。

研究目标:让AI助手学会“举一反三”

基于这些痛点,研究者提出了一个非常值得关注的设想:为什么不能让AI助手也像人类一样,能够学习、记忆并使用工作流程呢?

论文的核心目标清晰明确:开发一套方法,让AI助手能从过往经验中提取可复用的工作流,并在未来的任务中灵活应用。

研究者希望借此实现三个效果:

  1. 更高效地完成复杂任务;
  2. 在不同网站和领域之间具备更强的泛化能力;
  3. 随着经验积累,能力可以持续提升。

那么,具体是如何实现的?这就引出了论文的主角——Agent Workflow Memory,简称AWM。

AWM的核心思想:工作流记忆机制

AWM的核心思路并不复杂:让AI助手能够像人类一样,从过去的经验中学习、记忆并使用工作流程。但“工作流”究竟是什么?先把这个概念讲清楚。

什么是工作流?

在AWM的定义中,工作流(Workflow)是完成某个任务或子任务的一系列步骤。它包含两个关键部分:

  1. 工作流描述:一段简短的文字,说明这个工作流的目标或功能。
  2. 工作流轨迹:一系列具体的步骤,包括观察环境、推理和执行动作。

举个例子,一个“搜索产品”的工作流大致如下:

## 工作流描述: 在电商网站搜索特定产品

工作流轨迹:
1. [观察] 当前页面显示搜索框
2. [推理] 我需要在搜索框中输入产品名称
3. [动作] 在搜索框中输入"{产品名称}"
4. [观察] 搜索结果页面加载完成
5. [推理] 我需要查看搜索结果并选择最相关的产品
6. [动作] 点击最相关的产品链接

这个工作流描述了在电商网站搜索产品的通用步骤,可以适用于多种不同的产品和网站。

AWM的工作原理

理解工作流的概念后,AWM是如何运转的?它包含三个主要步骤:

  1. 工作流提取(Workflow Induction)
  2. 工作流整合(Workflow Integration)
  3. 工作流使用(Workflow Utilization)

下面逐一展开。

1. 工作流提取

在这个步骤中,AWM会从AI助手过去执行任务的经验里,提取出可复用的工作流。有两种实现方式:

a) 基于规则的提取:使用预定义规则来识别和提取常见的行为模式。
b) 基于语言模型的提取:利用大型语言模型(如GPT)分析和总结任务执行过程,生成抽象的工作流。

实践下来,基于语言模型的方法通常能产生更抽象、更通用的工作流,因此在实验中表现更优。

关于工作流提取,论文给出了两种方法的详细实现,值得深入探讨。

1.1 基于规则的方法

基于规则的方法主要包含两个步骤:经验去重和无效动作过滤。

经验去重:目的是从多个相似的任务执行经验中提取出独特的工作流。具体做法是:提取动作序列(比如从轨迹中抽取出 CLICK → CLICK → TYPE 这样的序列),然后按动作序列分组,从每组中随机选择n个经验作为代表。如果有任务模板信息,还可以按模板进一步分组去重。

无效动作过滤:移除那些无法在环境中成功执行的动作。比如,规定CLICK和TYPE动作的第一个参数必须是字符串格式的整数(代表环境中元素的ID),不符合规则的直接剔除。最终保留下来的有效动作序列就是工作流。

示例:输入轨迹 CLICK(12) → CLICK('12') → CLICK('30') → TYPE(44, "cat") → TYPE('44', "cat"),输出工作流为 CLICK('12') → CLICK('30') → TYPE('44', "cat")

1.2 基于语言模型的方法

这种方法利用大型语言模型来生成更抽象、更通用的工作流。研究者设计了专门的提示模板,引导模型从给定的任务经验中提取工作流。

提示模板的关键点包括:要求模型从网页导航任务列表中找出重复出现的动作子集,并将每个重复子集提取为一个工作流;每个工作流至少包含两个步骤;使用描述性变量名代替具体的输入文本或按钮字符串。

语言模型基于提供的任务经验和提示,会生成包含工作流描述和工作流轨迹的抽象工作流。例如:

## 在电商网站搜索产品

工作流描述:此工作流用于在电商网站上搜索特定产品。

工作流轨迹:
[环境描述] 当前页面显示搜索框。
[推理] 我需要在搜索框中输入产品名称。
[动作] fill('搜索框ID', '{产品名称}')

[环境描述] 搜索结果页面已加载。
[推理] 我需要点击最相关的产品链接。
[动作] click('{最相关产品链接ID}')

1.3 两种方法的比较

基于语言模型的方法优势明显:生成的工作流更抽象、更细粒度、更灵活,易于泛化。但基于规则的方法也有其价值:计算效率高、结果确定性强,便于调试和优化。

在实际应用中,研究者主要采用基于语言模型的方法,因为它能产出更高质量、更通用的工作流,在各类测试场景中表现更好。正是这种精心设计的提取过程,让AWM能从历史经验中学习到有用的操作模式,进而指导AI助手更高效地完成新任务——这也是AWM效果显著的关键所在。

2. 工作流整合

工作流提取出来后,AWM会将这些工作流整合到AI助手的记忆中。这个过程有点像给AI助手配备了一本“操作手册”,里面收录了各种常见任务的执行步骤。

3. 工作流使用

当AI助手面对新任务时,它会先查查自己的“操作手册”,看看有没有适用的工作流。如果找到了,就直接参考这个工作流来执行,而不是从零开始摸索。

AWM的两种工作模式

AWM支持两种主要模式:离线模式(Offline)和在线模式(Online)。

  1. 离线模式(AWM Offline):在任务执行之前,利用已有的训练数据来提取工作流。适用于有大量高质量训练数据的场景,优点是提前准备好工作流,执行任务时速度更快。
  2. 在线模式(AWM Online):在执行任务的过程中实时提取和使用工作流。适用于没有现成训练数据,或者任务环境经常变化的场景,优点是可以不断学习和适应新环境。

两种模式各有适用场景,研究者在不同实验中都进行了测试。

AWM的实验评估

为了全面检验AWM的效果,研究者选了两个主要的网页导航基准测试:WebArena和Mind2Web。这两个测试集覆盖了各种不同类型的网页任务,从简单信息查找到复杂多步骤操作。看看AWM的实际表现如何。

WebArena测试

## shopping: Browse Products in a Specific Category
To browse products in a specific category, I need to na vigate to the relevant main category. I will start by hovering over the main category menu item to reveal the subcategories.
hover('main category id')
To browse products in the specific subcategory, I need to click on the subcategory link. click('subcategory id')

WebArena包含812个网页导航任务,涉及5个不同网站(电子商务、社交论坛、软件开发协作平台、内容管理系统等)。它的特点是可以严格评估AI助手执行任务的功能正确性。

实验设置

研究者使用GPT-4作为基础模型,采用AWM的在线模式进行测试。这意味着AI助手在测试过程中会不断学习和使用新的工作流。

主要结果

  1. 整体成功率:AWM达到35.5%,基准方法(BrowserGym)为23.5%,相对提升51.1%。
  2. 平均步骤数:AWM平均5.9步,基准方法7.9步。

这些数据表明,AWM不仅显著提升了任务完成成功率,还减少了所需的步骤数,让AI助手操作更高效。

跨模板泛化能力

研究者还专门测试了AWM在不同任务模板之间的泛化能力。结果显示,即使面对全新的任务类型,AWM仍保持了33.2%的成功率,远超基准方法的20.5%。

Mind2Web测试

# tra vel: enter flight locations
Given that you are on the flight booking page, this workflow enters the departure and destination city/airport for your flight.
[link] From Departure Airport or City Your Origin − > CLICK [textbox] Origin City or Airport − > TYPE: {your-origin-city}
[link] {best-popup-option} − > CLICK
[link] To Destination Airport or City Your Destination − > CLICK [textbox] Destination City or Airport − > TYPE: {your-destination-city} [link] {best-popup-option} − > CLICK

Mind2Web强调跨任务、跨网站和跨领域的泛化能力,包含1000多个任务,涉及200多个网站,覆盖旅行、购物、社交媒体等多个领域。

实验设置

研究者同时测试了AWM的离线模式和在线模式。

主要结果

  1. 跨任务测试:AWM Offline(GPT-4)步骤成功率为45.1%,基准方法(MindAct)为36.2%,相对提升24.6%。
  2. 跨网站测试:AWM Online步骤成功率为33.9%,基准方法为30.1%,绝对提升3.8个百分点。
  3. 跨领域测试:AWM Online步骤成功率为35.5%,基准方法仅为18.6%,绝对提升16.9个百分点。

这些结果清楚地表明,AWM在各种不同的场景下都能显著提升AI助手的表现,特别是在跨领域任务中,提升幅度尤为突出。

结果分析

综合来看,可以得出几个关键结论:

  1. 显著提升性能:无论哪种测试场景,AWM都能大幅提升AI助手的任务完成能力。
  2. 更高效的执行:使用AWM的AI助手通常用更少的步骤完成任务,说明它学会了更有效的操作方式。
  3. 强大的泛化能力:AWM在跨任务、跨网站、跨领域上都表现出色,学到的工作流具有广泛的适用性。
  4. 在线学习的优势:在一些场景下(尤其是面对全新领域时),AWM的在线模式表现更优,说明实时学习和适应能力的重要性。
  5. 基础模型的影响:实验显示,使用更强大的基础模型(比如从GPT-3.5升级到GPT-4)可以进一步提升AWM的效果。
来源:https://www.53ai.com/news/RAG/2024092418326.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。