郭裕兰团队解析多智能体训练难题数据充足为何效果不佳

首页

热心网友

转载

2026-05-18

许多人可能并未意识到，自己早已身处多智能体协作技术带来的变革之中。

电商大促期间，仓库中并非仅有一台机器人在运作，而是由一整队机器人协同完成分拣、运输、避障与货物交接。自动驾驶技术面临的真正挑战，也不仅仅是教会一辆车如何行驶，更是要让众多车辆在同一条道路上实现高效、安全的协同。现实世界中的复杂任务，本质上大多无法由单一智能体独立完成，智能系统亦是如此。

然而，现实环境往往不会给予这些系统太多试错空间。仓库机器人撞倒货架，工业机械臂装配错零件，每一次失误都意味着真实的损失。正因如此，越来越多的研究转向了离线强化学习，即利用已有的历史数据进行策略训练，而非依赖成本高昂的实时交互试错。

但当场景从单智能体扩展到多智能体时，难度会呈指数级上升。系统不仅需要学会决策，更要在反馈信号有限的情况下，学会如何与其他智能体进行有效协作。

这正是当前行业面临的一个现实瓶颈。许多方法在仿真实验环境中表现优异，一旦应用于离线多智能体场景，往往迅速暴露出适应性不足的问题。

一方面，真实任务中的奖励信号通常非常稀疏，模型难以判断具体哪一步行动是正确的。另一方面，多智能体协作还引入了“信用分配”难题——即便任务最终成功，也很难厘清究竟是哪个智能体的决策起到了关键作用。其结果是，系统即便拥有海量历史数据，依然难以学会稳定的协作策略，更不用说在面对新任务时展现出良好的泛化能力。

在此背景下，中山大学郭裕兰教授团队提出了全新的基准测试框架“MangoBench”，并在其研究论文《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中，试图重新解答一个核心问题：当多个智能体无法进行大量试错时，如何才能真正学会协作？

该团队摒弃了传统依赖奖励驱动的范式，将问题重构为目标驱动，让模型围绕“应达到何种状态”进行学习，从而为离线多智能体强化学习指明了一条更为清晰的研究路径。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

论文地址：https://wendyeewang.github.io/MangoBench/

性能分化的关键拐点

在中等难度的导航任务中，不同方法的表现已呈现出显著差距。中山大学团队提出的IHIQL方法成功率可达80%至95%，表明其能可靠完成多数任务。相比之下，ICRL方法的成功率仅为40%至60%，GCMBC为20%至40%，而GCOMIGA和GCOMAR方法则接近0%，几乎未能学会任务。

这揭示了一个关键点：在奖励稀疏、反馈微弱的条件下，传统的离线多智能体方法极易失效，而采用分层思想的强化学习方法则展现出更强的学习能力。

当任务难度进一步提升，这种性能差距会被急剧放大。所有方法的表现均会下降，但下降幅度迥异。IHIQL的成功率虽会降至30%至40%，但仍保留了一定的任务完成能力。

ICRL和GCMBC会跌至10%至20%，其他方法则几乎完全失效。这好比一场考试：题目简单时，尚能分辨优劣；题目一旦变难，多数方法便如同“交白卷”，仅有少数方法能继续作答。IHIQL的优势，正体现在其面对复杂环境时更强的鲁棒性。

研究团队还深入探讨了任务分工对性能的影响。例如，在任务分配上，有的设置是每个智能体负责4个子目标，有的则是负责2个。

实验结果表明，无论是“2智能体×4目标”还是“4智能体×2目标”的分工模式，IHIQL在中等难度任务中的成功率都能稳定在90%左右。这说明该方法并非机械适应某种固定分工，而是更深刻地理解了任务完成的本质逻辑，因此能灵活应对不同的协作组织方式。

在机械臂操作任务中，这种差异更为直观。在需要同步协作的“抬栏杆”任务中，IHIQL成功率超过80%，GCMBC约为60%，ICRL约为50%，而模仿学习方法约为40%。若将不同方法比作工人小组，IHIQL小组不仅完成任务的成功率最高，其训练耗时仅为模仿学习方法的约5%。

这意味着它不仅在最终性能上更优，在学习效率和速度上也具备显著优势。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

然而，在更为复杂的异步协作任务中，情况发生了变化。以“放置食物”任务为例，此类任务要求智能体按特定顺序依次动作，而非同时发力，因此更考验时序配合能力。

在此场景下，ICRL方法表现最佳，成功率约在30%至40%之间，明显高于IHIQL和GCMBC，模仿学习方法甚至不足10%。这表明当任务强调动作间的时序依赖时，基于对比学习的方法更能捕捉这种顺序关系。更重要的是，ICRL的训练时间比模仿学习缩短了约93%，实现了性能与效率的双重提升。

单目标测试与多目标测试的对比，则揭示了另一个常被忽视的维度：评估方式本身会影响对模型能力的判断。在单目标测试下，同一任务中IHIQL成功率为78%，GCMBC为22%，ICRL为37%。但当切换为多目标评估后，三者成功率分别提升至82%、47%和56%。

这意味着许多方法的能力可能被单目标测试低估了。这些模型学习到的并非某个固定动作序列，而是能够针对不同目标进行灵活调整的策略，这更接近真正的泛化能力。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

在训练范式的对比中，研究人员发现，并非获得更多全局信息就一定能带来更好效果。分布式训练的IHIQL方法，在中等任务中成功率约95%，任务规模扩大后仍有约85%，即使在超大规模任务中也能保持在50%左右。

相比之下，集中训练方法HIQL-CTDE在中等任务中成功率约70%，但任务复杂度一旦增加，便迅速下滑至44%，在超大规模任务中甚至只剩1%，几乎丧失学习能力。

这一结果可以理解为：分布式方法将复杂问题分解，各智能体专注于自身局部决策，因此在任务变难时更具稳定性。集中训练方法虽拥有全局视野，但同时也需要处理极其庞杂的全局信息，当任务复杂度攀升时，优化过程极易失稳。

这表明，在多智能体系统中，信息更多未必是优势，关键在于系统能否以可扩展、可管理的方式处理复杂性。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

综合所有实验结果，可以得出几个明确结论。首先，许多方法在复杂任务中失效的根本原因，并非模型能力不足，而是奖励信号过于稀疏。

在稀疏奖励条件下，系统大部分时间处于“无反馈”状态，难以判断行动优劣，导致训练过程混乱。一旦提供更密集的奖励信号，性能便会显著恢复，这证实了问题的症结在于学习信号不足。

其次，目前表现最为稳健的仍是分层方法。以IHIQL为代表的方法之所以有效，在于它将一个复杂的长期任务，分解为一系列易于学习的短期子目标。

这种“分而治之”的策略，使得模型能在任务完成中途获得阶段性反馈，极大缓解了长期信用分配难题，从而在任务复杂度增加时保持稳定。因此，分层策略本质上是为系统提供了一条“分步学习”的可靠路径。

最后，这项研究揭示了多智能体系统最大的挑战并非仅仅是学习个体技能，而是掌握协同合作的机制。在简单任务中，多智能体凭借分工优势，其性能可能超越单智能体。

然而，一旦任务需要精细、动态的协作与衔接，协同能力的短板便会立刻暴露。可以说，制约多智能体系统性能进一步提升的最大瓶颈，正是其协同能力。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

从奖励驱动到目标驱动

在实验设计上，研究团队完成了一项关键工作：对原始离线数据进行重构。原始数据通常只包含状态和动作，记录了系统“看到什么”和“做了什么”。

研究人员在此基础上，创新性地加入了目标和奖励信息，将数据格式改造为（状态，动作，目标，奖励）。具体而言，他们会从历史轨迹中随机采样一个未来状态作为目标，并判断当前行为是否在向该目标靠近，从而自动生成相应的奖励信号。

这一改造，使得同一批历史数据不再局限于学习单一任务，而是可以围绕无数个潜在目标进行重复利用，极大地挖掘和放大了离线数据的价值。

此举的意义在于范式转换。传统强化学习让模型在行动中被动等待稀疏的奖励反馈，导致学习效率低下。引入目标条件后，模型转变为主动围绕一个明确的目标状态进行规划与行动。

原本模糊、稀少的奖励信号，被转化为清晰、持续的目标接近度信号。这使得学习目标更为明确，策略优化路径更为清晰，从而显著提升了离线学习的稳定性和效率。

为确保结果的可靠性，研究团队设定了严谨的实验流程。在运动导航任务中，训练步数达100万步，测试时使用5个不同目标，并采用5个随机种子进行重复验证，以评估方法的稳定性。

在机器人操作任务中，训练步数分别为1.5万和3.88万步，测试时更是使用了多达100个随机种子。这种设计旨在排除偶然性，确保观测到的性能差异是方法本身特性的体现。

在任务设计上，研究人员采用了循序渐进的难度阶梯。运动任务从简单迷宫开始，逐步过渡到复杂迷宫，最终加入随机传送等高难度机制。

操作任务则从需要同步配合的任务，演进到要求严格时序的异步任务。这种设计旨在系统性地评估模型在不同复杂度下的表现，不仅考察其基本任务完成能力，更着重测试其泛化能力、长程规划能力以及复杂协作能力。

换言之，该研究测试的是模型应对“难题”乃至“超纲题”的潜力。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026

研究团队还深入分析了CTDE范式表现不佳的原因。直觉上，训练时能获取全局信息应更具优势，但问题恰恰源于此。

首先，全局状态拼接了所有智能体的信息，导致状态空间维度爆炸，问题复杂度急剧增加，模型需要处理的信息量过大。

其次，CTDE存在“训练-执行不一致”问题：训练时模型利用全局信息学习，但执行时每个智能体只能依据局部信息独立决策。这导致训练阶段学到的策略，在分散式执行时可能无法有效实施，增加了策略优化的难度。

更深层的问题在于目标冲突。CTDE需要同时协调全局任务目标与各智能体的局部行为目标，容易导致优化方向不一致——一部分网络在学习整体协作，另一部分却在优化个体行为，最终难以形成合力。

因此，CTDE的瓶颈并非信息不足，而是信息过载和结构复杂所导致的训练不稳定。表面上的全局视野优势，在任务复杂度提升时，反而可能成为性能下降的诱因。

从方法到问题本质

从研究意义上看，该团队最重要的贡献，不仅在于提出了一种新方法，更在于清晰地揭示了离线多智能体强化学习长期难以取得突破的根本原因。

研究结果表明，核心障碍在于两点：一是学习信号薄弱，稀疏奖励导致Q函数难以稳定收敛；二是信用分配困难，在多智能体协作中难以准确评估单个智能体的贡献，导致梯度更新失准。这项研究明确指出了这些深层挑战。

研究也阐明了目标条件化为何有效。其作用绝非简单增加一个输入维度，而是彻底改变了学习范式。模型从依赖稀疏、不稳定的奖励信号，转变为学习如何从当前状态抵达指定目标状态。

每个状态都能与一个目标相关联，从而产生了更丰富、更明确的学习信号。这使得学习过程更加稳定高效。更重要的是，同一个模型能够针对不同目标生成相应策略，这表明模型学习的是具有泛化能力的“技能”，而非固定的动作序列。

研究人员进一步解释了分层方法优势的根源。该方法同时缓解了两个核心难题：通过设置中间子目标，有效缓解了稀疏奖励问题，使模型能在任务完成中途获得反馈；通过将长程任务分解为短程子任务，显著减轻了长期依赖带来的学习难度。

简言之，分层策略通过“化整为零”，将复杂的协同决策问题，转化为一系列可逐步解决的子问题。这对于本就协调困难的多智能体系统而言，尤为重要。

这项研究对现实应用具有直接意义。许多关键领域（如自动驾驶、仓储物流、工业自动化、医疗辅助机器人）不允许系统进行高风险试错，必须依赖离线历史数据进行训练。

该团队的工作，正是在探索如何让多个智能体在“零试错”或“低试错”成本约束下，依然能学会高效、安全的协作策略。这一方向的持续发展，将有望推动更安全的自动驾驶系统、更高效的物流机器人、更稳定的工业生产线以及更可靠的辅助服务机器人落地，最终惠及日常生活。

MangoBench 背后的科研工作者

汪怡，中山大学在读一年级博士生，主要研究方向为三维视觉和强化学习，师从郭裕兰教授，于深圳河套学院实习，完成此论文时期在中山大学读本科。在 CVPR 等 CCF A 类会议发表多篇论文，参与中国图学学会“奋发图强”博士生 workshop，参与 China3DV 墙报展示，曾获中山大学研究生校长奖学金等。

钟柠泽，完成此论文时期在中山大学读本科，与郭裕兰教授合作，主要研究方向为机器人，三维视觉和强化学习。在 CVPR/ICLR/ACM MM 等 CCF A 类会议等发表论文，CVPR/NeurIPS/ECCV 审稿人，论文在China3DV/ChinaGraph 大会等展示，现在美国宾夕法尼亚大学 GRASP Lab 读研究生，与 Vijay Kumar 院长合作。

符智恒，西澳大学博士，香港理工大学博士后，主要研究方向为三维重建与生成。发表论文共 20 余篇（包括CVPR、ICCV、TIP、ECCV、IJCAI等），英文著作一部 Point Cloud Intelligence 。

王龙光，中山大学博士后，主要研究方向为底层视觉和三维视觉。以第一作者身份发表 CCF A 类论文共 11 篇，谷歌学术总引用数为 7100 余次。入选中国科协青年人才托举工程，连续三年入选全球前 2% 顶尖科学家榜单；主持国家及省部级项目 9 项。

张晔，中山大学副研究员，主要研究方向为空间智能与三维视觉。发表学术论文 30 余篇，主持国家级和省部级项目3项，曾担任首届中国空间智能大会本地主席。

郭裕兰，中山大学教授，主要研究空间智能与三维视觉。主持国家自然科学基金联合重点项目等 10 余项，发表学术论文 200 余篇，谷歌学术引用 2 万余次，入选Clarivate全球高被引科学家。担任中国图象图形学学会三维视觉专委会副主任，IEEE TIP 高级领域编辑（SAE）。曾担任首届中国空间智能大会主席，历届中国三维视觉大会组委会主席。

原创文章，未经授权禁止转载。详情见转载须知。

中山大学郭裕兰团队：数据充足却训练失败，多智能体到底卡在哪丨CVPR 2026