新加坡国立大学AI新突破无需训练即可掌握工具使用

首页

热心网友

转载

2026-05-14

这项由新加坡国立大学牵头，联合Salesforce AI Research、加州大学伯克利分校和圣克鲁兹分校共同完成的研究，无疑为AI工具学习领域投下了一枚重磅冲击波。其论文编号arXiv:2603.08068v1，已于2026年3月发布，为相关领域的研究者提供了详尽的参考。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

新加坡国立大学重磅突破：AI模型无需传统训练也能学会使用工具

想象一下，你要学习使用一套全新的厨房工具。传统路径是找个师傅，手把手教你每一步，然后自己反复练习直到熟练。但如果有一种方法，让你只看几个简单示范，就能在实际操作中自己摸索、逐渐精通所有技巧，效率是不是高得多？

这正是研究团队试图攻克的核心难题。当前的大型语言模型，知识储备堪比学者，可一旦遇到需要调用外部工具的复杂任务，比如数学计算要用计算器、查询最新信息得用搜索引擎，它们往往就“抓瞎”了。现有的主流解决方案，通常需要海量的标注数据进行监督学习，再辅以强化学习来优化，整个过程不仅成本高昂，而且极其耗时。

而团队提出的“在上下文强化学习”框架，就像是为AI设计了一套“在干中学”的成长方案。它的精妙之处在于，无需事先准备成堆的标准答案，只需在训练时给模型看几个工具使用的例子，然后就让它在真实的任务环境中自己摸索、逐步提升技能。

一、革命性的学习方式：从模仿到独立

传统的AI训练，很像老派的“师傅带徒弟”。师傅得事无巨细地演示每一步，徒弟照葫芦画瓢重复无数遍，直到出师。这种方法的问题显而易见：需要准备海量的演示材料，过程僵化，缺乏灵活性。

新方法则更像现代的“项目制学习”。让AI在实际工作中成长，起步时给几个参考案例，好比给新员工一本简明手册。随着AI能力提升，参考案例逐步减少，直至它能够完全独当一面。

具体训练分阶段展开。最初，每次处理问题，模型都会看到附在问题前的三个完整示范，展示如何分析问题、调用工具、整合信息并给出答案。通过观察，模型开始理解工具使用的基本模式。

当模型在三个例子的指导下表现稳定后，示范会减至两个，迫使它更多地依赖自己的判断。接着减至一个，最后完全撤掉所有“拐杖”，让模型独立决策。这个渐进过程确保了学习曲线平稳，从依赖顺利过渡到自主。

整个训练采用了名为GRPO的强化学习算法，该算法特别适配工具调用场景。由于工具返回的信息是客观事实而非模型生成，训练时需确保这部分内容不被调整。研究团队设计了巧妙的掩码机制，只让模型自身的推理和决策部分参与学习，完美保护了工具返回信息的客观性。

二、智能的奖励机制：双重标准的评判体系

为了引导模型正确使用工具，团队设计了一套双重评判标准，好比老师批卷，既要答案对，也要步骤清晰、格式规范。

第一重标准紧盯答案准确性。最终答案若与标准答案完全匹配，即可获得满分。这确保了模型始终以解决问题为终极目标，不会跑偏。

第二重标准评估格式规范性。模型必须用特定XML标签来区分不同内容：思考过程放在标签内，搜索请求放在

标签内，最终答案则置于标签内。这种格式要求不仅让输出清晰可读，更有助于模型形成结构化的思维习惯。

团队为每种格式违规设置了相应扣分。例如，忘记使用答案标签、或完全未调用搜索功能，都会受到惩罚，后者是为了鼓励模型充分利用可用工具。

这套奖励机制的平衡艺术在于权重分配：答案准确性占80%，格式规范性占20%。这样既确保了正确性优先，又督促模型养成良好的工具使用“礼仪”。

三、实验验证：在多个领域展现强大能力

为了全面验证新方法的有效性，研究团队在多个不同类型的问答数据集上展开了测试，如同为学生安排了一场覆盖多学科的综合性大考。

在网页搜索辅助的问答任务中，新方法表现极为亮眼。以Qwen2.5-3B模型为例，在TriviaQA数据集上准确率达到72.6%，相比之前的最佳方法提升了8.9个百分点。在需要多步推理的复杂任务上，提升幅度更为显著：在2Wiki数据集上，准确率从30.0%大幅跃升至39.2%；在Musique数据集上，更是从9.8%翻倍至20.0%。

尤为关键的是，如此显著的性能提升，是在完全未使用任何监督学习数据的情况下实现的。与需要大量标注的传统方法对比，新方法不仅效果更优，更极大地降低了数据准备的成本与复杂度。

在数学推理任务上，新方法同样表现不俗。应用于AIME2024和AIME2025这两个高难度数学竞赛数据集时，虽然在AIME2024上略低于需要监督学习的基线方法，但在AIME2025上实现了反超，这证明了其良好的泛化能力。

更大规模模型的测试进一步佐证了方法的可扩展性。在Qwen2.5-14B模型上，新方法在所有测试任务上均显著优于直接提示和思维链推理等传统方法，平均准确率达51.84%，比思维链方法高出20.7个百分点。

四、深度分析：训练过程的精妙设计

研究团队对训练过程进行了细致入微的剖析，如同拆解一台精密仪器，以理解各部件如何协同工作。

他们比较了不同的课程设计方案。最初的设想是四阶段：从三个例子逐步减至零个。但实验发现，跳过“一个例子”阶段、直接从两个例子过渡到零例子的三阶段方案，效果反而更好。

四阶段方案虽让模型决策更快，却容易导致思考过早终止，影响了多轮推理的质量。三阶段方案给了模型更充分的时间去发展复杂推理能力，最终收获了更优质的答案。

训练动态分析揭示了有趣的学习规律。在有示范的阶段，模型的回答长度相对稳定，因为有模板可循。当进入独立阶段、示范撤除后，回答长度会先下降，这可能是失去参考后变得保守所致。但随着训练继续，长度又逐渐回升，表明模型正在学会独立生成更详尽、完整的回答。

更令人鼓舞的是，模型有效调用工具的次数在训练中稳步上升。这说明它不只学会了格式，更重要的是理解了“何时用”以及“如何用”工具来解决实际问题。

五、具体案例：看AI如何一步步解决复杂问题

为了更直观地展示效果，研究团队提供了一个完整的推理案例。这就像观察一个学生如何运用所学，解决一道开放式综合题。

问题是：“设立两届任期先例的总统是何时就职的？”这是一个典型的复合问题，内含两个子任务：先确定是哪位总统设立的先例，再查他的就职时间。

模型首先启动思考，意识到需要分两步走。接着发起第一次搜索：“president who set two term limit precedent”（设立两届任期先例的总统）。

搜索结果指向乔治·华盛顿。模型理解该信息后，进行第二步思考，确定需要查找华盛顿的就职时间。

第二次搜索：“when did George Washington enter office as president”（乔治·华盛顿何时就任总统）。结果显示：1789年4月30日。

最终，模型整合两次搜索所得，给出正确答案：1789年4月30日。

这个案例完美演绎了模型如何分解复杂问题、有效利用工具获取信息、并整合信息得出最终答案。整个过程逻辑清晰、步骤合理，展现了高质量的推理能力。

六、广泛应用：超越传统训练的局限性

新方法的影响远不止于学术论文，它为实际应用开辟了新的可能性。传统的工具增强型语言模型训练，依赖大量专家标注数据，这在许多现实场景中成本过高或不切实际。新方法仅需少数几个示范例子，极大降低了部署门槛。

在客服机器人领域，这种方法能让AI助手快速学会使用企业内部各类系统，如订单查询、库存管理，而无需为每个工具准备成千上万的训练对话。

在科研辅助方面，研究人员可让AI模型学会使用专业数据库和分析工具，协助进行文献检索与数据分析。由于不依赖大量标注，它能快速适应新工具和新数据源。

在教育应用中，该方法有助于开发更智能的学习助手，能根据学生问题，调用合适的教学资源和工具，提供个性化支持。

团队还验证了该方法在代码生成、数学推理等不同领域的有效性，表明它并非局限于搜索任务的解决方案，而是一个通用的工具学习框架。

七、技术细节：精密的工程设计

在技术实现层面，研究团队展现了精湛的工程技艺。他们采用了先进的GRPO算法，这是一种特别适合工具增强学习场景的强化学习方法。

模型训练采用了高效的并行策略，在4块NVIDIA A100 GPU上进行，运用了完全分片数据并行和梯度检查点技术来优化内存使用。每次训练会采样8个不同的回答轨迹来计算组相对优势，确保了学习信号的稳定性。

为处理检索到的外部信息，团队设计了巧妙的损失掩码策略。由于检索内容非模型生成，在优化过程中应被忽略，只有模型自身的推理、工具调用和最终答案部分参与学习。这种精细控制保障了训练过程的准确与高效。

模型的输入输出格式也经过精心设计，使用XML标签区分内容类型。这种结构化格式不仅便于机器解析，也让人更容易理解和验证模型的推理链条。

八、深远影响：重新定义AI学习范式

这项研究的意义，早已超越了单纯的技术改进，它为AI学习范式的发展指明了新方向。传统的监督学习虽有效，却受困于海量人工标注的高成本；强化学习能自主探索，但在复杂任务上往往收敛缓慢。

新方法巧妙融合二者优势：通过在上下文中提供示范来引导初期学习，再通过强化学习实现自主优化。这种“先扶上马，再送一程”的策略，既保证了学习效率，又培养了独立能力。

从更广阔的视角看，这种方法反映了一种更自然的学习模式。人类掌握新技能，往往也是先观察示范，然后在实践中摸索，最终形成自己的风格。让AI遵循类似路径，或许更符合认知发展的内在规律。

该成果也为低资源场景下的AI应用铺平了道路。在许多实际应用中，获取大量高质量标注数据并不现实，而新方法仅需几个示范例子，大幅降低了应用门槛，对推动AI技术的普及与民主化具有重要意义。

说到底，这项研究展示了一种更为优雅、高效的AI训练哲学。正如优秀的教师并非灌输所有知识，而是教会学生如何学习与思考一样，新方法让AI模型学会了在实践中自我成长。这种能力，对于构建真正智能、强适应性的AI系统，价值非凡。

研究团队的工作证明，我们并非总要依赖庞大数据集和复杂预训练。有时，巧妙的方法设计和对学习过程的深刻洞察，能以更少的资源，达成更好的效果。这为未来的AI研究提供了新思路，也让我们对技术的前景抱有更多期待。

这项突破不仅在技术上取得了显著进展，更重要的是为整个领域提供了新的思考维度。随着该方法的进一步完善与应用，未来的AI系统必将变得更加智能、高效且易于部署，最终真正实现技术服务于人的愿景。

Q&A

Q1：什么是在上下文强化学习？
A：在上下文强化学习是一种创新的AI训练方法。它无需大量标注数据，而是在训练过程中，直接给模型展示少数几个工具使用的示例，然后让模型在解决实际任务的过程中，通过强化学习自主掌握技能，最终实现独立完成任务。

Q2：这种方法比传统训练方式有什么优势？
A：最大优势在于大幅降低了对数据和训练成本的需求。传统方法依赖大量标注数据进行监督学习，成本高、耗时长。新方法仅需几个示范例子，就能让模型在强化学习过程中自主掌握工具使用，且在多项测试中表现更优。

Q3：这项技术可以应用在哪些实际场景中？
A：应用前景非常广泛，包括但不限于：让客服机器人快速掌握企业内部工具的使用；让科研助手调用专业数据库；开发能灵活调用教学资源的教育AI；以及任何需要AI模型与外部工具进行交互的场景。由于其不依赖大量标注数据的特性，能够快速适应新的工具和应用环境。

来源:https://www.techwalker.com/2026/0319/3181739.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：复旦大学团队首创体育空间智能基准：AI精准解读球场距离与位置下一篇：上海交大团队解析AI数学解题视觉识别错误原因