长程任务始终是AI Agent领域的核心挑战。在软件工程、科学研究和复杂决策等场景中,Agent需要连续做出决策,任何中间环节的失误都可能导致后续流程完全失效。过去,业界普遍期望通过扩大模型参数规模来攻克这一难题,但上海AI Lab此次提出了全新思路——他们推出了一个35B参数的MoE模型,名为Agents-A1。核心理念并非堆砌参数,而是通过扩展Agent的视野范围(Horizon),让一个参数规模小得多的模型能够接近万亿参数级别模型在长程任务上的表现。
论文链接:https://arxiv.org/abs/2606.30616
从实验结果来看,Agents-A1在多步搜索、科学研究以及长指令遵循等任务上,已经超越了部分万亿参数级别的模型。在同规模(35B)的模型中,它也处于领先地位。当然,研究团队也坦承,在工程类任务上,它与当前最前沿的大模型之间仍存在差距。
图|Agents-A1的基准测试表现。
这项研究的核心价值在于,它提供了一条更经济的强Agent开发路径:与其只关注参数规模,不如教会模型更持久、更经过验证的“工作习惯”。
Agents-A1如何设计?
Agents-A1是一个专为长程任务打造的35B参数MoE模型。它依托一个长程知识-动作基础设施,通过三阶段训练将多种Agent能力整合进同一模型中:首先进行全领域SFT,然后专门训练各领域的教师模型,最后通过多教师on-policy distillation(OPD)实现统一。具体流程如下:
1. 全领域监督微调(SFT)
该阶段的目标是让模型具备通用的Agent能力。研究团队使用了涵盖多领域、多任务的高质量长程轨迹数据,使模型能够在长上下文中进行理解、推理和指令遵循。训练时采用了sample packing技术,将多个短样本拼接成一个长序列,通过注意力掩码防止样本间相互干扰,从而减少padding浪费,提高GPU利用率。
2. 领域级教师模型训练
研究团队将模型能力拆分为四个方向:搜索、科学推理、指令遵循和工具调用。每个方向都设计了专门的训练方案。
- 搜索教师:采用“先SFT、后RL”的两阶段训练,结合GRPO技术。目标是让模型能够将复杂问题拆解、进行多跳搜索、协调工具使用,在保证正确率的同时减少冗余搜索。
- 科学教师:通过两阶段SFT。先强化科学推导能力,再通过工具增强的轨迹训练,让模型学会何时使用外部工具(如检索或计算),以及如何整合这些工具返回的证据。
- 指令遵循教师:采用两阶段RL和GRPO训练。第一阶段聚焦于格式、长度、关键词等细粒度约束的满足;第二阶段则强化在长上下文情境中定位证据、整合信息、遵循上下文规则的能力。
- 工具调用教师:同样采用工具SFT与工具RL的两阶段优化。重点学习何时该调用工具、出错后如何纠正,以及何时结束任务。训练中结合了结果奖励、过程奖励和高质量困难任务的复用。
3. 统一模型阶段
这个阶段颇具创新性。研究团队先让学生模型自己生成轨迹,然后由对应领域的教师进行评分和指导。这与离线模仿不同,教师直接评估的是学生自己生成的轨迹。最终,模型通过按领域路由的蒸馏和显著词汇对齐,兼顾了全领域SFT的广泛能力与各领域教师的专长。
图|Agents-A1三阶段训练流程概览。
为了支撑这套训练,研究团队还构建了一个以知识-动作图(KAG)为核心的基础设施,并通过自博弈不断扩展高质量的长轨迹数据。这样,训练样本中不仅包含问题和答案,还完整保留了工具使用和验证的过程。
图|Agents-A1的知识-动作基础设施概览。
实验结果
整体来看,Agents-A1在长程搜索、指令遵循和科学推理上表现亮眼,不仅在同规模模型中领先,部分基准甚至超越了万亿参数模型。具体来看:
图|Qwen3.5-35B-A3B、Agents-A1-SFT和Agents-A1的性能对比。
1. 全领域SFT
结果显示,Agents-A1-SFT在长程搜索、工程任务和科学研究上均有明显提升,但在通用Agent任务、指令遵循和HLE上出现了回落。这也说明,仅靠全领域SFT很难完全调和不同推理模式之间的冲突。
2. 领域教师模型训练
- 搜索增强教师:在四个基准上都稳定优于Qwen3.5-35B-A3B。在通用AI助手基准GAIA上提升最为显著,数值从59.8飙升至95.1。
图|Qwen3.5-35B-A3B与搜索增强教师模型的性能对比。
- 科学增强教师:两阶段SFT显著增强了科学推理和工具交互能力。在FS-R上,从基线的2.5直接跃升至54.3,这一跨越相当惊人。
图|Qwen3.5-35B-A3B与科学增强教师模型的性能对比。
- 指令遵循与长上下文学习:强化学习显著提升了模型的长上下文理解、指令遵循和泛化能力。RL增强教师在LongBench V2和IFBench上的提升尤为明显。
图|Qwen3.5-35B-A3B与RL增强教师模型在LongBench V2、IFBench和IFEval上的评测结果。
- 工具调用:显式的工具使用监督和强化学习,使模型在τ²-Bench和VitaBench上都取得了显著提升,尤其是在需要多轮、结构化交互的任务中效果更明显。
图|Qwen3.5-35B-A3B与工具增强RL教师模型在τ²-Bench和VitaBench上的性能评测结果。
- 统一模型实验:结果表明,多教师OPD比单纯的全领域SFT更能缓解不同任务间的冲突,在保持广泛能力的同时,更好地整合了各领域的专长,进一步提升了长程任务表现。
图|Agents-A1与35B/1T级模型的对比。
除了标准基准,研究团队还展示了两个案例。在鲸鱼叫声检测任务中,Agents-A1在一次12小时的运行里,从简单的CNN基线出发,将验证集AUC从0.58提升到了0.9935。这说明它已超越局部调参,具备在多轮迭代中持续优化方案、提升泛化能力的能力。
图|Agents-A1在ICML 2013 Whale Challenge上一次12小时运行中的优化轨迹。
另一个案例是地球科学任务。以2008年热带气旋Nargis为例,Agents-A1能自动识别数据源,完成数据提取、清洗、指标计算、可视化,最终形成多阶段闭环,较高保真度地重建了风暴的演化过程。
图|由Agents-A1生成的2008年热带气旋(Nargis)的路径。
不足与未来方向
Agents-A1的表现虽然不错,但短板也清晰可见。
首先,在“先规划再推理”“先反思再行动”、长上下文的关键信息总结和重要历史信息识别这些基础原子能力上,还有提升空间。这些能力直接影响长程任务中的稳定性、目标一致性和执行效率。
其次,在机器学习工程任务上,Agents-A1与更大模型之间的差距仍然明显。如何增强模型在完整工程流程中的目标一致性、决策记忆和试验效率,是一个重要的研究方向。
最后,经过OPD训练的统一学生模型,并不能在所有领域都稳定超越对应的教师模型。在“模型统一性”和“领域专长”之间找到更好的平衡,是一个长期课题。
更多技术细节,建议直接查阅原论文。
