首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepMind新突破:AI智能体自主发现RL算法,性能超越人类设计

DeepMind新突破:AI智能体自主发现RL算法,性能超越人类设计

热心网友
77
转载
2025-12-03

当人工智能开始具备自主“进化”能力时,人类在技术发展中的定位将面临重新定义。近日,Google DeepMind团队在顶尖期刊《自然》上发表了一项突破性研究,提出名为DiscoRL的全新方法,让智能体能够在多样化环境交互中自主发现强化学习规律,无需依赖人类预设算法框架。实验数据显示,该方法在Atari游戏基准测试中的表现超越了MuZero等主流强化学习算法,并且在陌生环境中依然保持卓越的稳定性。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作为实现智能决策的核心技术,强化学习长期面临的关键挑战在于如何让智能体自主开发高效学习算法。传统方法依赖专家设计算法架构,不仅耗费大量人力资源,更难以适应复杂多变的环境场景。DeepMind团队提出的DiscoRL通过多个智能体在不同环境中的交互经验,实现了学习规则的自适应演化。该技术的核心突破在于融合了智能体优化与元学习机制:智能体通过策略更新和预测优化来调整自身参数,元网络则通过动态调整学习目标,持续优化智能体的长期累积回报。

具体实施过程中,智能体的训练包含双重优化机制:在智能体优化阶段,研究团队采用KL散度来平衡策略更新与预测精度,确保训练过程的稳定性。智能体会同步输出策略函数、状态预测与动作价值评估,元网络则据此生成动态学习目标,智能体再根据这些目标调整内部参数。与此同时,模型引入辅助损失函数,通过优化动作价值与策略预测来提升学习效率。在元优化阶段,多个智能体在不同环境中独立学习,元网络根据整体表现计算元梯度,调整参数以最大化长期收益。通过定期重置智能体参数,确保学习规则能在有限时间内快速提升性能。

为验证DiscoRL的有效性,研究团队采用四分位数均值作为综合性能指标,在Atari基准测试体系中进行了系统评估。基于57款Atari游戏训练得到的Disco57规则,在相同游戏中的IQM得分达到13.86,显著超越MuZero、Dreamer等现有算法,其实际运行效率更是明显优于MuZero。进一步测试表明,Disco57在16个ProcGen二维游戏和Crafter基准测试中均表现优异,并在NetHack NeurIPS 2024挑战赛中荣获第三名,且未使用任何领域特定知识。

研究还发现,环境复杂度与多样性对学习规则的泛化能力具有重要影响。基于Atari、ProcGen和DMLab-30三个基准(共103个环境)演化出的Disco103规则,在Crafter基准上达到了人类水平表现,同时在Sokoban任务中接近MuZero的最优性能。这表明参与训练的环境越复杂多样,所发现的学习规则就越强大,即使面对全新环境也能保持高效适应。

在效率与稳定性方面,DiscoRL同样表现突出。最优版本的Disco57规则在每款Atari游戏约60亿步内即可被发现,相当于在57款游戏中仅进行3轮实验,远低于传统人工设计算法所需的研究周期和人力投入。随着训练环境数量的增加,DiscoRL在陌生ProcGen基准上的性能持续提升,展现出卓越的扩展性。

DeepMind团队指出,未来高级人工智能的强化学习算法设计可能将由机器主导,通过高效扩展数据与计算能力实现自动化演进,无需人类持续干预。这项突破虽为学术领域带来新的可能性,但也引发了人们对技术社会影响的思考——当前社会尚未完全准备好应对此类技术的广泛应用。

来源:https://www.itbear.com.cn/html/2025-10/1001214.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Go 中错误处理的惯用法:如何写出简洁、健壮且符合 Go 风格的错误处理代码
编程语言
Go 中错误处理的惯用法:如何写出简洁、健壮且符合 Go 风格的错误处理代码

Go 语言错误处理最佳实践:编写简洁、健壮且符合 Go 风格的代码指南 Go 语言采用多返回值(值 + error)实现显式错误处理,其标准做法是在每次函数调用后立即检查 err 是否为 nil;虽然忽略错误在语法上可行,但这违背了 Go 的设计哲学,极易导致隐蔽的 panic 或难以追踪的逻辑错误

热心网友
05.06
Python编写Flask接口如何限制请求频率_使用Flask-Limiter防止接口滥用
编程语言
Python编写Flask接口如何限制请求频率_使用Flask-Limiter防止接口滥用

Python Flask接口请求频率限制实战:Flask-Limiter防刷指南 Flask-Limiter 初始化配置详解:避免应用上下文错误 应用上下文配置不当,是开发者初次集成 Flask-Limiter 时最常见的错误。核心症结在于,限流器必须在 Flask 应用实例完全初始化且应用上下文就

热心网友
05.06
2026年涨100倍的币会是哪些?可能有哪些
web3.0
2026年涨100倍的币会是哪些?可能有哪些

2026年可能涨100倍的币会是哪些? 市场总是在寻找下一个爆发点。如果说2026年的加密货币市场存在百倍增长的可能,那么机会大概率会落在那些手握硬核技术、生态正在快速扩张、并能精准切入新兴应用场景的项目上。纵观行业趋势与数据,有五个名字反复被提及:Sui、Filecoin、Cosmos、Kaspa

热心网友
05.06
Python程序PyTorch显存泄漏怎么办_利用torch.cuda.empty_cache清理
编程语言
Python程序PyTorch显存泄漏怎么办_利用torch.cuda.empty_cache清理

torch cuda empty_cache() 仅释放未被张量引用的缓存显存,不回收仍被变量或模型持有的显存;需配合 del、zero_grad() 和 no_grad() 才能有效释放。 为什么 torch cuda empty_cache() 经常不起作用? 简单来说,这个函数的作用范围非常有

热心网友
05.06
如何在 WooCommerce 中隐藏无缩略图的产品
编程语言
如何在 WooCommerce 中隐藏无缩略图的产品

如何在 WooCommerce 中隐藏无缩略图的产品 本文详细讲解如何通过自定义代码过滤 WooCommerce 商品查询,自动排除未设置特色图像(产品主图)的商品,确保店铺前台仅展示带有有效产品图片的商品条目,提升页面美观度与专业感。 你是否希望自己的 WooCommerce 在线商店前台只呈现那

热心网友
05.06