首页 游戏 软件 资讯 排行榜 专题
首页
AI
UCSD与英特尔联手推出PettingLLMs框架,多智能体强化学习性能提升90%

UCSD与英特尔联手推出PettingLLMs框架,多智能体强化学习性能提升90%

热心网友
99
转载
2025-11-09

在人工智能快速发展的当下,大语言模型驱动的新型多智能体系统正展现出前所未有的潜力。然而,现有训练框架多专注于单智能体场景的优化,对于多智能体之间的协同学习——即“群体强化”机制的探索——仍是一个充满挑战的研究方向。为突破这一瓶颈,来自加州大学圣地亚哥分校与英特尔的研究团队提出了一套通用多智能体强化学习框架PettingLLMs,为构建高效协作的智能体网络提供了创新解决方案。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

多智能体系统在医疗诊断、程序开发、科研辅助和具身智能等领域的应用中,已展现出远超单智能体的显著优势。不过,当前主流的强化学习算法(例如GRPO)均建立在单智能体假设之上,其核心机制是通过统一输入生成多组候选回答,并在组内进行相对优势评估。这种机制的有效性依赖于“共同prompt”的前提——即所有候选回答必须基于完全相同的上下文生成。但在多智能体多轮交互的实际场景中,不同智能体在各轮次接收到的prompt可能包含其他智能体的历史输出(例如编程任务中,某个智能体生成的代码可能被其他智能体用于单元测试),导致“共同prompt”假设被破坏,进而影响优势计算的公平性与训练效果。

针对这一问题,研究团队创新性地提出了基于贪心搜索的树状采样方法。该方法通过每轮为每个智能体生成K个备选分支,并优先选择当前奖励最高的智能体进行下一轮扩展,有效平衡了探索新策略与利用已知最优策略之间的矛盾。同时,每个智能体的奖励函数被设计为同时考虑角色专属奖励与全局任务奖励,确保智能体在提升协作能力的同时保持其功能独特性。

面对多智能体训练中“何时采用专属模型、何时采用共享模型”的策略选择难题,研究团队构建了异步分布式训练架构。该系统通过路由模块收集多智能体交互产生的轨迹数据,并根据训练模式需求进行差异化处理:在专属模型模式下,系统将智能体i的数据仅发送至模型资源池i的更新单元,实现独立模型进化;在共享模型模式下,系统将所有智能体的轨迹数据合并后发送至同一资源池,完成统一模型优化。

基于上述方法,研究团队开源了PettingLLMs框架。该框架支持不同模型与智能体间的灵活映射,允许每个智能体适配不同的LoRA参数配置。开发者只需定义任务特定的智能体交互逻辑与奖励函数,即可快速搭建多智能体训练环境。目前,框架已内置数学推理、代码生成、游戏对战等主流任务环境供直接调用。

实验结果表明,该框架在复杂任务中表现突出。在推箱子任务中,通过AT-GRPO算法训练的两个智能体将任务完成率从14%提升至96%;在路径规划任务中,完成率从47%提升至99.5%。在代码生成任务中,LiveCodeBench、APPS、CodeContests的准确率分别提升6.1%、4.2%和7.0%;数学推理任务中,AIME+24与AIME+25的准确率分别提升9.0%和17.9%。

消融实验进一步验证了框架设计的合理性。仅在单智能体环境中训练规划器或工具子角色时,指标虽从5.0%提升至11.0%/14.5%,但联合执行时的准确率仅为16.0%;而互换已训练角色的策略会导致准确率骤降至6.0%,证明不同智能体确实具备功能互补性与不可替代性。训练过程中智能体的学习回报持续上升,任务平均完成回合数稳步下降,表明协同效率随着训练进程显著提升。

来源:https://www.itbear.com.cn/html/2025-11/1014507.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起
科技数码
OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起

OPPO A6k手机重磅发布:天玑6300处理器、高清LCD直屏、7000mAh超大电池,售价仅1999元起 OPPO旗下广受欢迎的A系列再添实力新机。近日,备受期待的OPPO A6k正式上市发售。这款新品搭载了备受好评的天玑6300八核处理器,并配备了一块容量高达7000mAh的耐用长寿电池,成为

热心网友
04.06
《红色沙漠》熔化锁链的火焰任务攻略-支线任务完成方法详解
游戏攻略
《红色沙漠》熔化锁链的火焰任务攻略-支线任务完成方法详解

速览 在《红色沙漠》的广阔世界中,数量丰富的支线任务与主线剧情共同构筑了沉浸式的冒险体验。其中,“熔化锁链的火焰”任务作为瑟金斯家族剧情线的关键环节,其触发机制与主线进程紧密相连。任务并非随时可用,玩家需将主线故事推进到特定阶段后,任务才会自动添加至任务日志。本篇攻略将为你详解此支线任务的接取条件与

热心网友
04.06
《异种航员2》运动机制详解-战术移动与时间单位消耗
游戏攻略
《异种航员2》运动机制详解-战术移动与时间单位消耗

《异种航员2》运动机制深度解析 在《异种航员2》(Xenonauts 2)的策略战斗中,对“时间单位”(TU)的高效运用是取胜的核心。每个士兵的移动、射击乃至战术配合,都依赖于玩家对TU的精确规划。操作上手简单:选中单位后,直接使用鼠标左键点击目的地方格,系统便会清晰显示移动所需消耗的时间单位,帮助

热心网友
04.06
《异种航员2》封面机制详解-掩体闪避效果介绍
游戏攻略
《异种航员2》封面机制详解-掩体闪避效果介绍

速览 在《异种航员2》(Xenonauts 2)的战局中,掌握“战术规避”与精通“火力输出”同等关键。游戏全新设计的掩体系统,是提升你作战小队生存几率的战略性核心。简言之,战场上绝大多数可见的物体都能转化为你的战术屏障。无论是散落的木箱、残缺的矮墙,还是茂密的灌木丛与坚实的建筑物,巧妙地利用它们,就

热心网友
04.06
《红色沙漠》超凡建造物任务攻略-任务流程详解
游戏攻略
《红色沙漠》超凡建造物任务攻略-任务流程详解

速览 在开放世界大作《红色沙漠》中,庞大的支线任务系统为玩家提供了丰富的探索体验。其中,“超凡建造物”任务是阿方索家族势力任务线中的重要一环。要成功接取此任务,玩家必须首先完成其前置任务【枪械名门】。在此之后,任务的下一步关键操作是前往游戏中标注的特定建筑地点进行互动调查——这本质上是一个用于快速移

热心网友
04.06