人大与美团联手打造AI工具使用智能助手技术解析
这篇由中国人民大学与美团联合团队完成的研究,为大语言模型的工具调用能力训练,开辟了一条极具创新性的技术路径。论文编号arXiv:2601.10355v1,发表于2026年1月,为AI工具学习领域提供了重要参考。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

我们是如何掌握一项新技能的?无论是参照食谱学习烹饪,还是查阅说明书组装家具,亦或是搜索“个人所得税申报流程”,我们依赖的往往是前人总结的文字指南。这些看似普通的文本,实则蕴含着宝贵的“操作知识”——它们详细记录了解决问题的步骤、所需工具及常见误区,是一座尚未被充分开发的数字化知识宝库。
然而,在人工智能领域,训练模型掌握工具使用的主流方法,却与人类这种自然学习模式截然不同。传统范式类似于“温室训练”:研究者预先定义一组固定的工具接口(API),并人工构造大量调用示例供模型反复练习。这种方法虽有效,但局限性显著——模型如同只在特定积木套装中练习的孩子,一旦面对真实世界中琳琅满目且未曾见过的新工具,往往束手无策。
那么,能否让AI像人类一样,直接从海量非结构化文本中自主学习工具使用呢?这正是上述研究团队探索的核心课题。他们提出并验证了一套全新的方法论,其关键在于:从互联网浩瀚的普通文本中,自动挖掘其中隐含的多步骤操作流程,并将其转化为AI可理解、可学习的“对话式训练教材”。
一、文本中的“隐藏宝藏”:操作知识储量超乎想象
构想虽好,但首先需回答一个根本问题:互联网文本中,究竟有多少内容包含可提取的、明确的操作流程?为探明真相,研究团队进行了一次大规模数据勘探。
他们从超大规模网络文本数据库Ultra-fineweb中随机抽取25万个文本片段进行分析。结果令人振奋:约14%的文本包含明确的多步骤操作指南。这一比例表明,在互联网的文本海洋中,操作类知识并非零星孤岛,而是一片储量惊人的大陆。
以一段音乐可视化制作教程为例,文本会清晰描述:“首先,准备音频文件;其次,打开After Effects并创建新合成项目;接着,导入音频文件至时间轴……”每一步都指向具体动作与工具。更重要的是,这些文本覆盖领域极其广泛:客户支持(22.4%)、研究与数据处理(15.5%)、教育学习(12.1%),此外还包括电商运营、软件开发、信息检索等数十个类别。这充分证明,从文本中学习能使AI接触的知识面,远比任何人为预设的工具集更广阔、更贴近真实世界。
二、GEM系统:四步将“文本矿”精炼为“AI教材”
发现富矿后,便需要一套高效的“冶炼”工艺。研究团队为此设计了名为GEM的自动化数据合成管道,它如同一条智能生产线,将原始文本加工成高质量训练数据,整个过程分为四个精密阶段。
第一阶段:文本筛选。 如同在矿石中初选高品位原料。系统利用智能分类器,快速识别并过滤出包含多步骤操作流程的文本,剔除纯论述性或无关内容。
第二阶段:流程与工具提取。 系统对筛选文本进行深度解析,如同经验丰富的工程师阅读技术手册,不仅理清“先做什么、后做什么”的顺序与条件逻辑,还从中抽象并定义出执行这些操作所需的“工具”(即API接口)。
第三阶段:轨迹生成。 这是将静态说明书转化为动态教学场景的关键一步。系统基于提取出的工作流程与工具,自动生成多轮对话轨迹,涵盖用户提问、助手思考、工具调用、环境反馈等完整环节。为使对话更贴近现实,系统还会刻意引入真实场景中的“噪音”,如用户需求的模糊表述、操作出错后的恢复流程等。
第四阶段:复杂度提升与验证。 初始生成的对话可能较为简单直接。GEM系统会对其进行“增强”,扩展工具调用链条,增加任务的复杂性与模糊性。最后,通过规则检查与大模型评估的双重质检,确保产出数据既复杂多样,又准确可靠。
三、训练“专属教练”:实现低成本、高质量的轨迹合成
GEM系统虽效果卓越,但运行成本较高。为解决此问题,研究团队构思了一个巧妙方案:训练一个“专属教练”。
他们以GEM系统生成的约1万个高质量样本作为“教案”,通过监督微调方式,训练了一个专用的轨迹合成器模型。该合成器学会了GEM的核心能力:给定一段包含操作流程的文本,即可直接输出对应的工具定义与多轮对话轨迹。
由此实现了从“重工业冶炼”到“轻量化生产”的转变。该合成器能以极低成本持续生成训练数据,同时保持与原始GEM系统相媲美的质量,为方法的可扩展性奠定了坚实基础。
四、实证效果:基准测试中的卓越性能表现
理论与方法再精妙,终需实战检验。研究团队在两大权威测试基准上验证了其方法的有效性。
在BFCL V3多轮工具调用基准测试中,使用GEM数据训练的320亿参数模型,取得了44.88%的整体准确率。相比未经专门训练的基础模型(28.35%),性能提升超过16个百分点。这一成绩不仅大幅领先于其他使用开源合成数据训练的模型,甚至超越了GPT-4.1(38.88%)与DeepSeek-V3.2-Exp(37.38%)等知名大型商业模型。
更值得关注的是在τ-Bench测试中的表现。该基准模拟了航空、零售等专业领域的真实交互场景。一个有趣发现是:使用GEM数据(源自通用网络文本)训练的模型,在这些专业领域测试中,竟能媲美甚至超越使用该领域内部专门数据训练的模型。例如在零售领域,模型取得了86.84%的优异分数。这强有力地证明,从广泛文本中学习到的操作知识,具备强大的跨领域泛化能力——AI掌握的是一种“元技能”,而非死记硬背的固定套路。
五、成功关键:数据复杂度与真实性的双重保障
为何这种方法如此有效?深度分析揭示了几个关键因素。
首要因素是“复杂度提升”阶段。数据显示,经过增强的数据能将模型性能提升超过12个百分点。这是因为增强后的对话轨迹平均包含46个轮次、使用8.6个不同工具、进行16.3次工具调用,其复杂度与丰富度远超现有主流开源数据集(如APIGEN-MT平均仅18.5轮次)。高难度的“练习题”显然更能锻炼模型解决复杂问题的能力。
其次,基于大语言模型的“幻觉检测”起到了质量过滤作用,通过剔除不合理或矛盾的样本,稳步提升了训练数据的纯净度。
从一个完整案例可窥见其生成数据的质量:在为照片添加文字的场景中,AI助手需主动澄清图片路径与文字位置、正确序列化调用多个工具、遵守规则(如拒绝超大的字体请求并提供替代方案)、并在遇到“打印机故障”时尝试其他可用设备。这一系列交互,生动体现了智能、合规且健壮的问题解决能力。
六、范式转变:从“温室培育”到“野外生长”
这项研究的深远意义,在于它预示了一种训练范式的根本性转变。
传统方法可类比为“温室培育”,环境可控但生态单一。而新方法则更似“野外生长”,让AI直接从人类自然产生的、复杂多样的文本经验中学习。后者的优势是压倒性的:规模更大(仅一个数据源即可挖掘数百万样本)、多样性更广(覆盖人类活动几乎所有领域)、真实性更强(源于真实需求,而非人工编造)。
更重要的是,它开辟了一条让AI向人类学习方式靠拢的路径。AI开始能够像我们一样,通过“阅读”来获取操作知识。这不仅是技术进步,更是理念跃迁。当然,挑战依然存在,如文本质量不均、描述不完整等问题,但这项研究已清晰指明了一个充满潜力的方向:当AI能够自如地从人类积累的文字宝库中汲取养分时,其走向实用化与智能化的步伐,必将大大加速。
Q&A
Q1:GEM系统究竟是什么?
A:GEM是一个自动化数据合成系统,它如同一条智能生产线,能将互联网上的普通操作指南文本,经过筛选、提取、生成、增强四道工序,转化为用于训练AI使用工具的高质量多轮对话数据。
Q2:为何从文本学习优于传统方法?
A:传统方法让AI在预设的“工具玩具箱”中练习,局限明显。而从文本学习,相当于让AI博览人类在各领域留下的“经验手册”,其数据源在规模、多样性与真实性上具有天然优势,从而训练出适应能力更强、更善于举一反三的模型。
Q3:用此方法训练的AI,实际效果如何?
A:实验数据提供了有力证明。在通用工具调用测试中,其性能超越了包括GPT-4.1在内的多个知名模型。尤其在跨领域测试中,即使使用通用文本训练,也能在专业场景中取得顶尖成绩,这充分展现了其出色的泛化能力与实用潜力。
相关攻略
2026年北京国际汽车展览会,成为汽车智能化演进的关键里程碑。在这一行业盛会上,火山引擎正式发布了其面向下一代智能汽车的全栈AI解决方案。该方案的核心突破在于,率先将前沿的Agentic AI(智能体AI)架构引入汽车领域,并深度整合了AI智能座舱套件与豆包座舱助手。这标志着车载交互体验正经历一场根
想要在Recraft AI中生成更具视觉冲击力与文化符号感的图像,关键在于充分激发波普艺术(Pop Art)的风格精髓。如果感觉效果不足,以下五种方法能帮助你精准调校,轻松创作出标志性的波普风格作品。 一、使用内置波普风格模型直接生成 最便捷的方式是直接调用Recraft AI内置的专用模型。平台已
想要通过Recraft AI快速创作一套风格统一、现代感十足的扁平化矢量插画,却总觉得提示词效果不佳,生成的图像要么带有不想要的渐变,要么轮廓不够清晰锐利?别担心,这通常不是工具本身的问题,而是几个核心设置尚未调整到位。遵循以下这套详细的操作流程,你将能精准锁定纯粹的扁平风格,让AI的输出结果高度符
德国IU国际应用科学大学的最新研究,为我们揭晓了提升AI情感理解能力的关键:如何通过优化提问方式,让大语言模型真正“读懂人心”。这项发表于2025年1月的研究(论文编号:arXiv:2601 08302v1)系统性地探索了“提示工程”这一核心方法,旨在解决AI在情感分析任务中面临的沟通困境。 想象一
这篇由中国人民大学与美团联合团队完成的研究,为大语言模型的工具调用能力训练,开辟了一条极具创新性的技术路径。论文编号arXiv:2601 10355v1,发表于2026年1月,为AI工具学习领域提供了重要参考。 我们是如何掌握一项新技能的?无论是参照食谱学习烹饪,还是查阅说明书组装家具,亦或是搜索“
热门专题
热门推荐
初次接触赛车模拟器,或是观看职业赛事的方向盘特写镜头,你一定会被那些密集排列的旋钮与按键所吸引。这绝非单纯的视觉装饰,每一个控件都承载着在毫秒间精准调控车辆动态的关键使命。从牵引力控制到刹车平衡,从引擎图谱到实时数据,这些为极速盲操而生的设计,正是区分业余爱好者与专业车手的重要标志。熟练掌握其功能并
本文介绍了在OKX欧易平台首次购买USDT的完整流程,重点强调了入金、下单、划转三个关键步骤的正确顺序。内容涵盖了从法币充值到币币交易,再到资产划转至资金账户的详细操作与注意事项,旨在帮助新手用户理清逻辑,避免因操作顺序错误导致交易失败或资金滞留,实现顺畅的首次加密货币购买体验。
Dota 2 7 41c版本现已更新,对于希望使用五号位英雄上分的玩家而言,当前环境中有几位英雄的表现尤为突出。根据Yandex战队职业选手Malady在最新视频中的深度解析,发条技师、工程师以及树精卫士,均是此版本中极具上分潜力的强势辅助选择。 除了分享强势辅助英雄推荐,Malady也透露了队伍近
近日,一则关于2026年电竞世界杯可能更换举办地的消息在电竞社区引发热议。据独联体知名爆料人harumi透露,原定于沙特阿拉伯利雅得举行的本届赛事,存在将主办地转移至法国的可能性。这一潜在变动,无疑为这项全球顶级电竞赛事的最终落地增添了新的看点与悬念。 目前,电竞世界杯赛事组委会尚未对此传闻发布任何
本文介绍了在访问OKX(欧易)平台时,如何准确识别其官方网站、帮助中心及处理页面跳转问题。重点分析了官方域名的核心特征与常见后缀,并提供了遇到非官方页面时的安全验证步骤与处理建议,旨在帮助用户有效规避风险,确保资产与信息安全。





