Agent工作流记忆：让AI助手更聪明地完成复杂任务_AI热点日报

Agent工作流记忆：让AI助手更聪明地完成复杂任务

类型：热点整理2026-05-30

AgentWorkflowMemory方法让AI助手从历史经验中提取可重用工作流，通过基于规则或语言模型的提取、整合与使用，提升复杂网页任务执行效率。在WebArena和Mind2Web测试中，任务成功率显著提升，步骤数减少，跨领域泛化能力突出，离线与在线模式均有效。

最近读到一篇富有启发性的研究论文，题目是《Agent Workflow Memory》，中文可译为“AI助手工作流记忆”。该论文提出了一种创新思路，帮助智能助手（即我们常说的Agent）在处理复杂的网页任务时变得更聪明、更高效。

Agent工作流记忆 - 让AI助手更聪明地完成复杂任务

背景：AI助手在实际应用中的核心难题

首先来了解这项研究的出发点。如今的大语言模型（例如GPT系列）确实表现出色，能够进行对话、回答问题，甚至协助完成一些简单的在线操作。然而，一旦任务变得复杂、需要多步骤才能完成，AI助手就容易出现失误。

举一个直观的例子：让AI助手帮你在线预订一张从北京到上海的机票。听起来很简单？但拆解开来，步骤相当多——打开航空公司网站、选择出发地和目的地、指定日期、筛选航班、填写乘客信息、选座位、支付……这一连串操作，人类因为多次订票早已驾轻就熟；但对AI助手来说，每次执行都像从头摸索。它可能在某个环节卡壳，或者直接遗漏关键步骤。

研究人员总结出现有AI助手的两个主要短板：

缺乏可复用的工作流程：AI无法像人类一样，从过去的经验中提炼出通用的操作模板，并在新任务中灵活调用。
无法从失败中学习：每次执行任务都从头开始，既不能借鉴之前成功的方法，也无法避开曾经踩过的坑。

研究目标：让AI助手学会“举一反三”

基于这些痛点，研究者提出了一个非常值得关注的设想：为什么不能让AI助手也像人类一样，能够学习、记忆并使用工作流程呢？

论文的核心目标清晰明确：开发一套方法，让AI助手能从过往经验中提取可复用的工作流，并在未来的任务中灵活应用。

研究者希望借此实现三个效果：

更高效地完成复杂任务；
在不同网站和领域之间具备更强的泛化能力；
随着经验积累，能力可以持续提升。

那么，具体是如何实现的？这就引出了论文的主角——Agent Workflow Memory，简称AWM。

AWM的核心思想：工作流记忆机制

AWM的核心思路并不复杂：让AI助手能够像人类一样，从过去的经验中学习、记忆并使用工作流程。但“工作流”究竟是什么？先把这个概念讲清楚。

什么是工作流？

在AWM的定义中，工作流（Workflow）是完成某个任务或子任务的一系列步骤。它包含两个关键部分：

工作流描述：一段简短的文字，说明这个工作流的目标或功能。
工作流轨迹：一系列具体的步骤，包括观察环境、推理和执行动作。

举个例子，一个“搜索产品”的工作流大致如下：

## 工作流描述: 在电商网站搜索特定产品

工作流轨迹:
1. [观察] 当前页面显示搜索框
2. [推理] 我需要在搜索框中输入产品名称
3. [动作] 在搜索框中输入"{产品名称}"
4. [观察] 搜索结果页面加载完成
5. [推理] 我需要查看搜索结果并选择最相关的产品
6. [动作] 点击最相关的产品链接

这个工作流描述了在电商网站搜索产品的通用步骤，可以适用于多种不同的产品和网站。

AWM的工作原理

理解工作流的概念后，AWM是如何运转的？它包含三个主要步骤：

工作流提取（Workflow Induction）
工作流整合（Workflow Integration）
工作流使用（Workflow Utilization）

下面逐一展开。

1. 工作流提取

在这个步骤中，AWM会从AI助手过去执行任务的经验里，提取出可复用的工作流。有两种实现方式：

a) 基于规则的提取：使用预定义规则来识别和提取常见的行为模式。
b) 基于语言模型的提取：利用大型语言模型（如GPT）分析和总结任务执行过程，生成抽象的工作流。

实践下来，基于语言模型的方法通常能产生更抽象、更通用的工作流，因此在实验中表现更优。

关于工作流提取，论文给出了两种方法的详细实现，值得深入探讨。

1.1 基于规则的方法

基于规则的方法主要包含两个步骤：经验去重和无效动作过滤。

经验去重：目的是从多个相似的任务执行经验中提取出独特的工作流。具体做法是：提取动作序列（比如从轨迹中抽取出 CLICK → CLICK → TYPE 这样的序列），然后按动作序列分组，从每组中随机选择n个经验作为代表。如果有任务模板信息，还可以按模板进一步分组去重。

无效动作过滤：移除那些无法在环境中成功执行的动作。比如，规定CLICK和TYPE动作的第一个参数必须是字符串格式的整数（代表环境中元素的ID），不符合规则的直接剔除。最终保留下来的有效动作序列就是工作流。

示例：输入轨迹 CLICK(12) → CLICK('12') → CLICK('30') → TYPE(44, "cat") → TYPE('44', "cat")，输出工作流为 CLICK('12') → CLICK('30') → TYPE('44', "cat")。

1.2 基于语言模型的方法

这种方法利用大型语言模型来生成更抽象、更通用的工作流。研究者设计了专门的提示模板，引导模型从给定的任务经验中提取工作流。

提示模板的关键点包括：要求模型从网页导航任务列表中找出重复出现的动作子集，并将每个重复子集提取为一个工作流；每个工作流至少包含两个步骤；使用描述性变量名代替具体的输入文本或按钮字符串。

语言模型基于提供的任务经验和提示，会生成包含工作流描述和工作流轨迹的抽象工作流。例如：

## 在电商网站搜索产品

工作流描述：此工作流用于在电商网站上搜索特定产品。

工作流轨迹：
[环境描述] 当前页面显示搜索框。
[推理] 我需要在搜索框中输入产品名称。
[动作] fill('搜索框ID', '{产品名称}')

[环境描述] 搜索结果页面已加载。
[推理] 我需要点击最相关的产品链接。
[动作] click('{最相关产品链接ID}')

1.3 两种方法的比较

基于语言模型的方法优势明显：生成的工作流更抽象、更细粒度、更灵活，易于泛化。但基于规则的方法也有其价值：计算效率高、结果确定性强，便于调试和优化。

在实际应用中，研究者主要采用基于语言模型的方法，因为它能产出更高质量、更通用的工作流，在各类测试场景中表现更好。正是这种精心设计的提取过程，让AWM能从历史经验中学习到有用的操作模式，进而指导AI助手更高效地完成新任务——这也是AWM效果显著的关键所在。

2. 工作流整合

工作流提取出来后，AWM会将这些工作流整合到AI助手的记忆中。这个过程有点像给AI助手配备了一本“操作手册”，里面收录了各种常见任务的执行步骤。

3. 工作流使用

当AI助手面对新任务时，它会先查查自己的“操作手册”，看看有没有适用的工作流。如果找到了，就直接参考这个工作流来执行，而不是从零开始摸索。

AWM的两种工作模式

AWM支持两种主要模式：离线模式（Offline）和在线模式（Online）。

离线模式（AWM Offline）：在任务执行之前，利用已有的训练数据来提取工作流。适用于有大量高质量训练数据的场景，优点是提前准备好工作流，执行任务时速度更快。
在线模式（AWM Online）：在执行任务的过程中实时提取和使用工作流。适用于没有现成训练数据，或者任务环境经常变化的场景，优点是可以不断学习和适应新环境。

两种模式各有适用场景，研究者在不同实验中都进行了测试。

AWM的实验评估

为了全面检验AWM的效果，研究者选了两个主要的网页导航基准测试：WebArena和Mind2Web。这两个测试集覆盖了各种不同类型的网页任务，从简单信息查找到复杂多步骤操作。看看AWM的实际表现如何。

WebArena测试

## shopping: Browse Products in a Specific Category
To browse products in a specific category, I need to na vigate to the relevant main category. I will start by hovering over the main category menu item to reveal the subcategories.
hover('main category id')
To browse products in the specific subcategory, I need to click on the subcategory link. click('subcategory id')

WebArena包含812个网页导航任务，涉及5个不同网站（电子商务、社交论坛、软件开发协作平台、内容管理系统等）。它的特点是可以严格评估AI助手执行任务的功能正确性。

实验设置

研究者使用GPT-4作为基础模型，采用AWM的在线模式进行测试。这意味着AI助手在测试过程中会不断学习和使用新的工作流。

主要结果

整体成功率：AWM达到35.5%，基准方法（BrowserGym）为23.5%，相对提升51.1%。
平均步骤数：AWM平均5.9步，基准方法7.9步。

这些数据表明，AWM不仅显著提升了任务完成成功率，还减少了所需的步骤数，让AI助手操作更高效。

跨模板泛化能力

研究者还专门测试了AWM在不同任务模板之间的泛化能力。结果显示，即使面对全新的任务类型，AWM仍保持了33.2%的成功率，远超基准方法的20.5%。

Mind2Web测试

# tra vel: enter flight locations
Given that you are on the flight booking page, this workflow enters the departure and destination city/airport for your flight.
[link] From Departure Airport or City Your Origin − > CLICK [textbox] Origin City or Airport − > TYPE: {your-origin-city}
[link] {best-popup-option} − > CLICK
[link] To Destination Airport or City Your Destination − > CLICK [textbox] Destination City or Airport − > TYPE: {your-destination-city} [link] {best-popup-option} − > CLICK

Mind2Web强调跨任务、跨网站和跨领域的泛化能力，包含1000多个任务，涉及200多个网站，覆盖旅行、购物、社交媒体等多个领域。

实验设置

研究者同时测试了AWM的离线模式和在线模式。

主要结果

跨任务测试：AWM Offline（GPT-4）步骤成功率为45.1%，基准方法（MindAct）为36.2%，相对提升24.6%。
跨网站测试：AWM Online步骤成功率为33.9%，基准方法为30.1%，绝对提升3.8个百分点。
跨领域测试：AWM Online步骤成功率为35.5%，基准方法仅为18.6%，绝对提升16.9个百分点。

这些结果清楚地表明，AWM在各种不同的场景下都能显著提升AI助手的表现，特别是在跨领域任务中，提升幅度尤为突出。

结果分析

综合来看，可以得出几个关键结论：

显著提升性能：无论哪种测试场景，AWM都能大幅提升AI助手的任务完成能力。
更高效的执行：使用AWM的AI助手通常用更少的步骤完成任务，说明它学会了更有效的操作方式。
强大的泛化能力：AWM在跨任务、跨网站、跨领域上都表现出色，学到的工作流具有广泛的适用性。
在线学习的优势：在一些场景下（尤其是面对全新领域时），AWM的在线模式表现更优，说明实时学习和适应能力的重要性。
基础模型的影响：实验显示，使用更强大的基础模型（比如从GPT-3.5升级到GPT-4）可以进一步提升AWM的效果。

来源：https://www.53ai.com/news/RAG/2024092418326.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。