人大与美团联手打造AI工具使用智能助手技术解析_AI热点日报

人大与美团联手打造AI工具使用智能助手技术解析

类型：热点整理2026-05-12

这篇由中国人民大学与美团联合团队完成的研究，为大语言模型的工具调用能力训练，开辟了一条极具创新性的技术路径。论文编号arXiv:2601 10355v1，发表于2026年1月，为AI工具学习领域提供了重要参考。我们是如何掌握一项新技能的？无论是参照食谱学习烹饪，还是查阅说明书组装家具，亦或是搜索“

这篇由中国人民大学与美团联合团队完成的研究，为大语言模型的工具调用能力训练，开辟了一条极具创新性的技术路径。论文编号arXiv:2601.10355v1，发表于2026年1月，为AI工具学习领域提供了重要参考。

从文字到智能助手：人大与美团如何让AI学会使用工具

我们是如何掌握一项新技能的？无论是参照食谱学习烹饪，还是查阅说明书组装家具，亦或是搜索“个人所得税申报流程”，我们依赖的往往是前人总结的文字指南。这些看似普通的文本，实则蕴含着宝贵的“操作知识”——它们详细记录了解决问题的步骤、所需工具及常见误区，是一座尚未被充分开发的数字化知识宝库。

然而，在人工智能领域，训练模型掌握工具使用的主流方法，却与人类这种自然学习模式截然不同。传统范式类似于“温室训练”：研究者预先定义一组固定的工具接口（API），并人工构造大量调用示例供模型反复练习。这种方法虽有效，但局限性显著——模型如同只在特定积木套装中练习的孩子，一旦面对真实世界中琳琅满目且未曾见过的新工具，往往束手无策。

那么，能否让AI像人类一样，直接从海量非结构化文本中自主学习工具使用呢？这正是上述研究团队探索的核心课题。他们提出并验证了一套全新的方法论，其关键在于：从互联网浩瀚的普通文本中，自动挖掘其中隐含的多步骤操作流程，并将其转化为AI可理解、可学习的“对话式训练教材”。

一、文本中的“隐藏宝藏”：操作知识储量超乎想象

构想虽好，但首先需回答一个根本问题：互联网文本中，究竟有多少内容包含可提取的、明确的操作流程？为探明真相，研究团队进行了一次大规模数据勘探。

他们从超大规模网络文本数据库Ultra-fineweb中随机抽取25万个文本片段进行分析。结果令人振奋：约14%的文本包含明确的多步骤操作指南。这一比例表明，在互联网的文本海洋中，操作类知识并非零星孤岛，而是一片储量惊人的大陆。

以一段音乐可视化制作教程为例，文本会清晰描述：“首先，准备音频文件；其次，打开After Effects并创建新合成项目；接着，导入音频文件至时间轴……”每一步都指向具体动作与工具。更重要的是，这些文本覆盖领域极其广泛：客户支持（22.4%）、研究与数据处理（15.5%）、教育学习（12.1%），此外还包括电商运营、软件开发、信息检索等数十个类别。这充分证明，从文本中学习能使AI接触的知识面，远比任何人为预设的工具集更广阔、更贴近真实世界。

二、GEM系统：四步将“文本矿”精炼为“AI教材”

发现富矿后，便需要一套高效的“冶炼”工艺。研究团队为此设计了名为GEM的自动化数据合成管道，它如同一条智能生产线，将原始文本加工成高质量训练数据，整个过程分为四个精密阶段。

第一阶段：文本筛选。 如同在矿石中初选高品位原料。系统利用智能分类器，快速识别并过滤出包含多步骤操作流程的文本，剔除纯论述性或无关内容。

第二阶段：流程与工具提取。 系统对筛选文本进行深度解析，如同经验丰富的工程师阅读技术手册，不仅理清“先做什么、后做什么”的顺序与条件逻辑，还从中抽象并定义出执行这些操作所需的“工具”（即API接口）。

第三阶段：轨迹生成。 这是将静态说明书转化为动态教学场景的关键一步。系统基于提取出的工作流程与工具，自动生成多轮对话轨迹，涵盖用户提问、助手思考、工具调用、环境反馈等完整环节。为使对话更贴近现实，系统还会刻意引入真实场景中的“噪音”，如用户需求的模糊表述、操作出错后的恢复流程等。

第四阶段：复杂度提升与验证。 初始生成的对话可能较为简单直接。GEM系统会对其进行“增强”，扩展工具调用链条，增加任务的复杂性与模糊性。最后，通过规则检查与大模型评估的双重质检，确保产出数据既复杂多样，又准确可靠。

三、训练“专属教练”：实现低成本、高质量的轨迹合成

GEM系统虽效果卓越，但运行成本较高。为解决此问题，研究团队构思了一个巧妙方案：训练一个“专属教练”。

他们以GEM系统生成的约1万个高质量样本作为“教案”，通过监督微调方式，训练了一个专用的轨迹合成器模型。该合成器学会了GEM的核心能力：给定一段包含操作流程的文本，即可直接输出对应的工具定义与多轮对话轨迹。

由此实现了从“重工业冶炼”到“轻量化生产”的转变。该合成器能以极低成本持续生成训练数据，同时保持与原始GEM系统相媲美的质量，为方法的可扩展性奠定了坚实基础。

四、实证效果：基准测试中的卓越性能表现

理论与方法再精妙，终需实战检验。研究团队在两大权威测试基准上验证了其方法的有效性。

在BFCL V3多轮工具调用基准测试中，使用GEM数据训练的320亿参数模型，取得了44.88%的整体准确率。相比未经专门训练的基础模型（28.35%），性能提升超过16个百分点。这一成绩不仅大幅领先于其他使用开源合成数据训练的模型，甚至超越了GPT-4.1（38.88%）与DeepSeek-V3.2-Exp（37.38%）等知名大型商业模型。

更值得关注的是在τ-Bench测试中的表现。该基准模拟了航空、零售等专业领域的真实交互场景。一个有趣发现是：使用GEM数据（源自通用网络文本）训练的模型，在这些专业领域测试中，竟能媲美甚至超越使用该领域内部专门数据训练的模型。例如在零售领域，模型取得了86.84%的优异分数。这强有力地证明，从广泛文本中学习到的操作知识，具备强大的跨领域泛化能力——AI掌握的是一种“元技能”，而非死记硬背的固定套路。

五、成功关键：数据复杂度与真实性的双重保障

为何这种方法如此有效？深度分析揭示了几个关键因素。

首要因素是“复杂度提升”阶段。数据显示，经过增强的数据能将模型性能提升超过12个百分点。这是因为增强后的对话轨迹平均包含46个轮次、使用8.6个不同工具、进行16.3次工具调用，其复杂度与丰富度远超现有主流开源数据集（如APIGEN-MT平均仅18.5轮次）。高难度的“练习题”显然更能锻炼模型解决复杂问题的能力。

其次，基于大语言模型的“幻觉检测”起到了质量过滤作用，通过剔除不合理或矛盾的样本，稳步提升了训练数据的纯净度。

从一个完整案例可窥见其生成数据的质量：在为照片添加文字的场景中，AI助手需主动澄清图片路径与文字位置、正确序列化调用多个工具、遵守规则（如拒绝超大的字体请求并提供替代方案）、并在遇到“打印机故障”时尝试其他可用设备。这一系列交互，生动体现了智能、合规且健壮的问题解决能力。

六、范式转变：从“温室培育”到“野外生长”

这项研究的深远意义，在于它预示了一种训练范式的根本性转变。

传统方法可类比为“温室培育”，环境可控但生态单一。而新方法则更似“野外生长”，让AI直接从人类自然产生的、复杂多样的文本经验中学习。后者的优势是压倒性的：规模更大（仅一个数据源即可挖掘数百万样本）、多样性更广（覆盖人类活动几乎所有领域）、真实性更强（源于真实需求，而非人工编造）。

更重要的是，它开辟了一条让AI向人类学习方式靠拢的路径。AI开始能够像我们一样，通过“阅读”来获取操作知识。这不仅是技术进步，更是理念跃迁。当然，挑战依然存在，如文本质量不均、描述不完整等问题，但这项研究已清晰指明了一个充满潜力的方向：当AI能够自如地从人类积累的文字宝库中汲取养分时，其走向实用化与智能化的步伐，必将大大加速。

Q&A

Q1：GEM系统究竟是什么？
A：GEM是一个自动化数据合成系统，它如同一条智能生产线，能将互联网上的普通操作指南文本，经过筛选、提取、生成、增强四道工序，转化为用于训练AI使用工具的高质量多轮对话数据。

Q2：为何从文本学习优于传统方法？
A：传统方法让AI在预设的“工具玩具箱”中练习，局限明显。而从文本学习，相当于让AI博览人类在各领域留下的“经验手册”，其数据源在规模、多样性与真实性上具有天然优势，从而训练出适应能力更强、更善于举一反三的模型。

Q3：用此方法训练的AI，实际效果如何？
A：实验数据提供了有力证明。在通用工具调用测试中，其性能超越了包括GPT-4.1在内的多个知名模型。尤其在跨领域测试中，即使使用通用文本训练，也能在专业场景中取得顶尖成绩，这充分展现了其出色的泛化能力与实用潜力。

来源：https://www.techwalker.com/2026/0128/3177937.shtml

ai

延伸阅读

补充最近整理过的热点入口。