首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepMind研究突破:AI自主发现RL算法,性能超人工设计70%

DeepMind研究突破:AI自主发现RL算法,性能超人工设计70%

热心网友
83
转载
2025-10-28

长久以来,人工智能领域一直致力于构建能够在复杂动态环境中自主决策并达成目标的智能体。强化学习作为实现这一目标的关键技术,虽已历经数十年研究,但如何让智能体自主设计出高效学习算法这一核心难题始终悬而未决。近日,Google DeepMind团队提出突破性解决方案,采用多智能体在不同环境中交互学习的方式,实现了强化学习规则的自我发现。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

团队研发的DiscoRL系统在多轮基准测试中展现出令人瞩目的能力。在经典Atari游戏测试环节,该系统训练出的Disco57规则以13.86的四分位均值(IQM)超越MuZero、Dreamer等主流算法,其运算效率也显著优于同类技术。更值得关注的是,该规则在从未接触过的ProcGen二维游戏、Crafter生存挑战以及NetHack迷宫探索等测试中,均展现出超越人工设计算法的泛化能力。

这项突破的核心在于其独特的双重优化机制。在智能体优化层面,系统采用Kullback-Leibler散度确保训练稳定性,通过元网络生成的策略、观测预测和动作预测目标,持续改进决策模型。在元优化层面,多个智能体在不同环境中并行学习,元网络根据整体表现计算元梯度,动态调整学习规则。这种设计使算法能在有限训练步数内快速收敛,同时保持对未知环境的适应能力。

实验数据显示,算法性能与环境复杂度呈现显著正相关。基于103个环境训练的Disco103规则,不仅在Atari测试中保持竞争力,更在Crafter生存挑战中达到人类水平表现,在推箱子任务中接近MuZero的顶尖性能。研究团队特别指出,当训练环境数量从57个增至103个时,算法在全新测试场景中的表现提升达37%,充分证明数据多样性对算法泛化能力的关键作用。

在效率维度上,DiscoRL展现出显著优势。最优版本仅需在每个Atari游戏进行约6亿步训练(相当于57个游戏3轮实验),即可发现高性能规则。相比之下,传统人工设计方法需要数十倍实验次数和人力投入。这种效率提升源于算法对计算资源的智能利用——随着参与训练的环境数量增加,系统在未知测试场景中的表现呈现指数级增长。

技术细节方面,智能体结构包含策略输出、多模态预测和价值评估模块,元网络则通过反向传播与优势行动者-评论家算法实现参数优化。特别设计的辅助损失函数,有效平衡了探索与利用的矛盾,使学习过程既稳定又高效。在NetHack挑战赛中,未使用任何领域知识的Disco57仍取得第三名,验证了算法的普适性。

这项发表于《自然》杂志的研究成果引发学术界广泛关注。专家指出,该成果标志着强化学习从人工设计向自动发现的范式转变,未来高级AI系统的核心算法可能完全由机器自主生成。不过,技术突破带来的伦理与社会影响同样值得深思——当算法设计权从人类转移至机器,现有监管框架和技术治理体系将面临全新挑战。

来源:https://www.itbear.com.cn/html/2025-10/1000493.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

灰烬之国能联机吗灰烬之国多人联机功能与设置方法详解
游戏攻略
灰烬之国能联机吗灰烬之国多人联机功能与设置方法详解

《灰烬之国》详细评测:目前仅支持单人,深度构筑与流派搭配是核心玩法 近日正式上线的动作Roguelike《灰烬之国》,以其高速流畅的俯视角战斗和极具深度的Build构筑系统,迅速吸引了大量核心玩家的关注。然而,许多玩家在入手前最关心的问题是:这款游戏是否支持多人联机合作? 答案是明确的:目前不支持。

热心网友
04.06
魔兽世界中怎么发放装备
游戏攻略
魔兽世界中怎么发放装备

在《魔兽世界》中如何高效公平地分配装备?团队管理者必看指南 对于任何一支《魔兽世界》的团队来说,顺利推倒副本首领固然值得庆祝,但这仅仅完成了目标的一半。真正考验团队凝聚力与管理者智慧的,往往是BOSS倒下之后的关键环节——装备的分配。这件事如果处理得当,能极大提振团队士气,让团队无往不利;反之,处理

热心网友
04.06
《洛克王国世界》家园经验对照表
游戏攻略
《洛克王国世界》家园经验对照表

《洛克王国世界》家园经验对照表:不同植物的经验获取效率分析 在《洛克王国世界》的家园系统中,种植植物是获取经验值的一个稳定且重要的途径。然而,不同种类植物的经验产出效率、生长周期存在显著差异。为了帮助玩家优化家园种植策略,我们结合玩家实测数据整理了一份详细的经验对照表,助您精准选择高性价比植物,最大

热心网友
04.06
《洛克王国世界》自爆流游玩心得
游戏攻略
《洛克王国世界》自爆流游玩心得

《洛克王国世界》自爆流玩法深度解析:刷钱效率与实战策略 在《洛克王国世界》多样化的战术体系中,自爆流凭借其高强度的刷钱效率与独特的对战风格,成为一种备受关注的玩法。许多玩家都对它的具体操作与实战技巧充满好奇。本文将结合核心实战经验,为你系统剖析自爆流的操作思路、阵容配置要点及关键注意事项,助你快速上

热心网友
04.06
《红色沙漠》嘟嘟鸟强化铁锅图纸获取攻略-势力任务与净化流程详解
游戏攻略
《红色沙漠》嘟嘟鸟强化铁锅图纸获取攻略-势力任务与净化流程详解

速览 本文为您带来《红色沙漠》中关键装备——嘟嘟鸟强化铁锅制作图纸的详细获取指南。获取流程的核心在于完成势力任务“智慧女巫”,并彻底净化“免罪圣所”。您需要清理区域内的所有敌人、击败最终守关BOSS,并成功解开一个关于核心的机关谜题,图纸即可入手。以下是分步详解。 红色沙漠嘟嘟鸟强化铁锅制作图纸完整

热心网友
04.06