游乐游手机版
首页/AI热点日报/热点详情

基于PPO强化学习算法在AI领域的实战应用案例

类型:热点整理2026-06-30
《超级马里奥兄弟》你能挑战到第几关?说起这款红白机时代的经典之作,相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔,早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞,躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花,仿佛瞬间回到了儿时时光。 最初发

《超级马里奥兄弟》你能挑战到第几关?说起这款红白机时代的经典之作,相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔,早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞,躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花,仿佛瞬间回到了儿时时光。

基于PPO强化学习算法的AI应用案例

最初发行的《超级马里奥兄弟》版本共设定了8个世界,每个世界包含4个关卡,总计32个关卡。相信不少朋友至今仍未完全通关——德国程序员Viet Nguyen就是其中之一。他只玩到了第9关,于是决定借助强化学习AI来替他弥补这份遗憾。如今,他训练出的AI马里奥大叔已成功拿下29个关卡。

不过遗憾的是,第4、7、8世界的第4关未能通过。Viet Nguyen解释说,这与游戏机制有关:一局结束后玩家可以自行选择通关路径,但这可能导致重复访问同一关卡,因此AI始终没能进入那三个关卡。

他所采用的强化学习算法正是OpenAI研发的近端策略优化算法(Proximal Policy Optimization,简称PPO)。此前尝试用A3C代码训练马里奥闯关,效果远不及这次,能冲到29关也超出了最初的预期。目前,Viet Nguyen已将基于PPO编写的完整Python代码开源,并附上了详细的使用说明。

还能玩Dota的AI算法:PPO

PPO是OpenAI在2017年开发的算法模型,主要用于训练虚拟游戏玩家OpenAI Five。这位虚拟玩家在2018年的Dota 2人机对抗赛中,曾战胜世界顶级职业选手,同时能够击败99.95%的普通玩家。

复杂的游戏环境一直是AI训练的理想场景。为了让AI掌握游戏规则、学会运用策略,强化学习成为研究人员常用的机器学习方法之一,它可以描述并解决AI智能体在与环境交互过程中通过学习策略实现特定目标的问题。近端策略优化算法(PPO)已成为深度强化学习中基于策略的方法里效果最优的算法之一,相关论文已发布在arXiv预印论文库中。

论文指出,PPO是一种新型的策略梯度算法,它提出了新的“目标函数”,能够执行多个训练步骤,实现小批量更新,从而解决了传统策略梯度算法中步长难以确定的问题。固定步长的近端策略优化算法工作流程如下:每次迭代时,N个actor中的每个都收集T个时间步长的数据,然后在这些NT时间步长的数据上构建替代损失,并使用minibatch SGD进行K个epochs的优化。

研究人员强调,PPO具备了信任区域策略优化的部分优点,但实施起来更简单、更通用,且具有更好的样本复杂度。为验证性能,他们在多个基准任务上进行了模拟测试,包括人形机器人运动策略和Atari游戏的玩法。

PPO算法的基准任务测试

在游戏角色的AI训练中,一项基本功能是具备连续性的运行和转向。例如马里奥遇到地面或空中障碍时,能够以此为目标进行跳跃和躲避。为了展示PPO在高维连续控制方面的性能,论文中采用3D人形机器人进行了测试,具体任务包括:

(1)仅向前运动;(2)每200个时间步长或达到目标时,目标位置随机变化;(3)被目标击倒后,需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。

研究人员从学习曲线中随机抽取了任务二在某一时刻的性能表现。可以看出,在第六帧的放大图中,人形机器人朝目标移动,随后目标随机改变位置,机器人能跟随转向并朝新目标运行。这说明PPO在连续转向控制方面具备出色的性能。

那么它在具体游戏中的“获胜率”如何呢?研究人员用包含49款游戏的Atari合集进行验证,并与A2C和ACER两种算法做了对比。为排除干扰,三种算法使用了相同的策略网络架构,并对另外两种算法进行了超参数优化,确保它们在基准任务上的性能最大化。

评估采用两个指标:一是整个训练期间每集的平均获胜数,二是在持续100集训练中每集的平均获胜数。前者更适合快速学习,后者有助于评估最终比赛表现。结果显示,PPO在第一个指标下获胜次数达到30,在小样本下拥有更高的胜率。

最后,研究人员还强调PPO的优势在于简洁易用:仅需几行代码就能从原始策略梯度实现进行修改,适用于更常规的设置,同时整体效果更优。

来源:https://m.elecfans.com/article/1260204.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。