基于PPO强化学习算法在AI领域的实战应用案例_AI热点日报

基于PPO强化学习算法在AI领域的实战应用案例

类型：热点整理2026-06-30

《超级马里奥兄弟》你能挑战到第几关？说起这款红白机时代的经典之作，相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔，早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞，躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花，仿佛瞬间回到了儿时时光。最初发

《超级马里奥兄弟》你能挑战到第几关？说起这款红白机时代的经典之作，相信许多玩家都再熟悉不过——那个大鼻子、留胡子、永远穿着背带工装裤的马里奥大叔，早已成为80后、90后心中的童年标志。看着画面中熟悉的身影一路跌跌撞撞，躲避突然杀出的毒蘑菇、锤子乌龟、头盔兔子和食人花，仿佛瞬间回到了儿时时光。

基于PPO强化学习算法的AI应用案例

最初发行的《超级马里奥兄弟》版本共设定了8个世界，每个世界包含4个关卡，总计32个关卡。相信不少朋友至今仍未完全通关——德国程序员Viet Nguyen就是其中之一。他只玩到了第9关，于是决定借助强化学习AI来替他弥补这份遗憾。如今，他训练出的AI马里奥大叔已成功拿下29个关卡。

不过遗憾的是，第4、7、8世界的第4关未能通过。Viet Nguyen解释说，这与游戏机制有关：一局结束后玩家可以自行选择通关路径，但这可能导致重复访问同一关卡，因此AI始终没能进入那三个关卡。

他所采用的强化学习算法正是OpenAI研发的近端策略优化算法（Proximal Policy Optimization，简称PPO）。此前尝试用A3C代码训练马里奥闯关，效果远不及这次，能冲到29关也超出了最初的预期。目前，Viet Nguyen已将基于PPO编写的完整Python代码开源，并附上了详细的使用说明。

还能玩Dota的AI算法：PPO

PPO是OpenAI在2017年开发的算法模型，主要用于训练虚拟游戏玩家OpenAI Five。这位虚拟玩家在2018年的Dota 2人机对抗赛中，曾战胜世界顶级职业选手，同时能够击败99.95%的普通玩家。

复杂的游戏环境一直是AI训练的理想场景。为了让AI掌握游戏规则、学会运用策略，强化学习成为研究人员常用的机器学习方法之一，它可以描述并解决AI智能体在与环境交互过程中通过学习策略实现特定目标的问题。近端策略优化算法（PPO）已成为深度强化学习中基于策略的方法里效果最优的算法之一，相关论文已发布在arXiv预印论文库中。

论文指出，PPO是一种新型的策略梯度算法，它提出了新的“目标函数”，能够执行多个训练步骤，实现小批量更新，从而解决了传统策略梯度算法中步长难以确定的问题。固定步长的近端策略优化算法工作流程如下：每次迭代时，N个actor中的每个都收集T个时间步长的数据，然后在这些NT时间步长的数据上构建替代损失，并使用minibatch SGD进行K个epochs的优化。

研究人员强调，PPO具备了信任区域策略优化的部分优点，但实施起来更简单、更通用，且具有更好的样本复杂度。为验证性能，他们在多个基准任务上进行了模拟测试，包括人形机器人运动策略和Atari游戏的玩法。

PPO算法的基准任务测试

在游戏角色的AI训练中，一项基本功能是具备连续性的运行和转向。例如马里奥遇到地面或空中障碍时，能够以此为目标进行跳跃和躲避。为了展示PPO在高维连续控制方面的性能，论文中采用3D人形机器人进行了测试，具体任务包括：

（1）仅向前运动；（2）每200个时间步长或达到目标时，目标位置随机变化；（3）被目标击倒后，需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。

研究人员从学习曲线中随机抽取了任务二在某一时刻的性能表现。可以看出，在第六帧的放大图中，人形机器人朝目标移动，随后目标随机改变位置，机器人能跟随转向并朝新目标运行。这说明PPO在连续转向控制方面具备出色的性能。

那么它在具体游戏中的“获胜率”如何呢？研究人员用包含49款游戏的Atari合集进行验证，并与A2C和ACER两种算法做了对比。为排除干扰，三种算法使用了相同的策略网络架构，并对另外两种算法进行了超参数优化，确保它们在基准任务上的性能最大化。

评估采用两个指标：一是整个训练期间每集的平均获胜数，二是在持续100集训练中每集的平均获胜数。前者更适合快速学习，后者有助于评估最终比赛表现。结果显示，PPO在第一个指标下获胜次数达到30，在小样本下拥有更高的胜率。

最后，研究人员还强调PPO的优势在于简洁易用：仅需几行代码就能从原始策略梯度实现进行修改，适用于更常规的设置，同时整体效果更优。

来源：https://m.elecfans.com/article/1260204.html

ai

延伸阅读

补充最近整理过的热点入口。