首页 游戏 软件 资讯 排行榜 专题
首页
AI
OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参

OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参

热心网友
65
转载
2026-05-11

最近,AI领域有个现象挺有意思:大语言模型驱动的编程智能体(coding agent),不训练新网络、不更新权重,只是持续地看失败、改代码、加测试、看回放,就能让一套程序系统变得越来越强。这背后,其实指向了一个更根本的问题。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

OpenAI的翁家翌(后训练强化学习基础设施的作者)在业余时间做了个实验,结果连他自己都有些意外。

他的初衷很简单:给游戏环境写几条成本低廉的测试规则,替代每次持续集成(CI)都跑一遍神经网络,省点计算资源。

于是,他用Codex(基于GPT-4)写了一套完全不依赖神经网络的纯规则策略。没想到,事情开始朝着意想不到的方向发展。

图片

在打砖块游戏(Atari Breakout)中,得分从387一路攀升至507、839、864,最后竟打到了理论最高分。

在MuJoCo仿真环境中的四足机器人Ant任务里,纯Python程序策略先是学会了节律步态,再接上短视窗模型预测控制,最终跑到了6000+的分数,进入了常见深度强化学习算法的性能量级。

同样是MuJoCo的HalfCheetah(机器人跑步)任务,凭借可解释的步态与姿态规则,加上在线规划,5次复测的平均分达到了11836.7,同样跻身深度强化学习的成绩区间。

在第一人称视觉任务VizDoom中,仅使用cv2和NumPy处理屏幕图像,10次随机种子的平均得分也有557.0。

更关键的是,在完整的Atari 57款游戏基准测试中,在固定的环境交互步数下,其中位数得分在约100万步时,就已经显著超越了PPO这类主流深度强化学习算法。

而整个过程,没有训练任何一个神经网络。

规则系统真正在做的事

但比这些结果更值得玩味的,是翁家翌观察到的另一个现象:Codex所做的,并非简单地反复重写一条策略。它实际上是在维护一套持续生长、不断演进的软件系统。

以打砖块为例,最终的策略远非一句“球在左边就往左”那么简单。系统里逐渐生长出了动作探测、状态读取、球与挡板检测、落点预测、卡死循环检测、回归测试、视频回放和实验记录等一系列模块。

Ant的策略里,则包含了节律控制器、姿态反馈环、接触信息处理、短视窗模型展开等组件。

被更新的对象,早已超越了策略函数本身,变成了一套带有记忆、反馈入口和回归验证机制的完整软件工程产物。

翁家翌将这个过程命名为“启发式学习”(Heuristic Learning, HL),而那个被长期维护的对象,则称为“启发式系统”(Heuristic System, HS)。

HL与深度强化学习共享“状态-动作-反馈-更新”的闭环,但核心差异在于更新的对象:从神经网络的权重参数,变成了软件系统的代码结构。反馈由编程智能体消化,来源可以是环境奖励、测试用例、运行日志、视频回放,甚至是人类反馈。更新不走反向传播,而是由智能体直接修改策略代码、状态检测器、测试用例或记忆存储。

一个HS远不止一个policy.py文件。它至少包含程序策略、状态表示、反馈入口、实验记录、回放或测试套件、记忆模块,以及由编程智能体执行的更新机制。单条规则不够看,只有当规则、反馈、历史数据和下一轮更新全部串联起来,才能称之为一个HS。

我们可以这样对比两者的核心差异:

策略形态:深度强化学习由神经网络参数构成;HL则由代码构成,可以是规则、状态机、控制器、模型预测控制(MPC)或宏动作。

反馈来源:深度强化学习主要依赖预设的环境奖励;HL的反馈则由编程智能体根据上下文(context)灵活处理,测试失败、环境反馈、日志异常、回放视频都可作为输入。

更新方式:深度强化学习对参数进行梯度更新;HL则由编程智能体直接修改源代码。

记忆机制:在线策略(on-policy)的深度强化学习基本没有记忆,离线策略(off-policy)则有经验回放缓冲区;HL则可以显式地记录试验过程、结果摘要、失败原因、视频回放和版本差异。

为什么以前没有人做

如果说HL的前身是专家系统和规则系统,那么历史上阻碍其发展的核心问题,就在于维护成本

人工维护启发式规则的典型路径往往是这样的:今天加一条规则修复了问题A,明天发现无意中破坏了功能B,后天不得不再补一个if条件分支,大后天就没人敢轻易删除任何旧代码了。最终,系统变得臃肿而脆弱。

问题不在于启发式规则本身没用,而在于人力无法长期负担其维护开销。这有点像工业革命前的手工纺纱——小规模尚可,一旦规模扩大,稳定性和成本就足以压垮整个体系。纺织机改变的是产能曲线,而编程智能体改变的,正是启发式规则的维护成本曲线。

目前常见的智能体反馈闭环是:提出功能需求,智能体编写代码,通过测试,人类给出反馈,下一轮打补丁。随着模型能力的提升,人类需要介入的次数逐渐减少,这个循环就有机会在边界明确的系统中自动闭合:环境反馈或测试失败触发问题,编程智能体读取上下文(日志、回放等),修改策略或测试,重新运行,将结果写回试验记录,进入下一轮迭代。

HL能解决持续学习难题吗

持续学习(Continual Learning)长期难以解决,核心卡点就是神经网络的“灾难性遗忘”:学了新任务,旧任务的能力就容易被覆盖或冲掉。

HL同样会面临“遗忘”问题。新规则修好了一个失败模式,可能同时破坏了旧场景;新的记忆把智能体反复引向错误方向;新的补丁改了公共接口,旧的调用方悄悄失效;规则越堆越多,最终连智能体自己也维护不动。

所以,HL并不会自动解决持续学习。但它把“防止遗忘”这个问题,变成了一个更工程化、更可管理的问题。

在HL框架下,旧能力可以被固化成一系列工程资产:回归测试用例、固定随机种子的回放脚本、黄金标准轨迹(golden trace)、失败视频集、版本差异对比、明确文档化的失败模式。历史是显式的、可读的、可删除的、可重构的。

当然,只增长不压缩的HS,最终一定会变成难以维护的“屎山”代码。它记住的东西很多,但记忆的方式太差,导致谁也不敢动,从而逐渐腐化。

因此,一个健康的HS需要两个持续进行的操作来维持:一是吸收反馈,将新的失败、日志、奖励写回系统;二是压缩历史,将一堆零散的局部补丁,重构为更简单、更可维护的代码表示。

这就把持续学习从“如何更新神经网络参数而不遗忘”,转变为了“如何&维护一个能持续吸收反馈的软件系统”。

HS能有多复杂

翁家翌提出了一个概念:耦合复杂度。它指的是编程智能体能够维护的策略的复杂程度,即一次更新必须同时照顾多少相互牵连的状态、规则、测试、反馈和历史模块。

这个量不能简单地用代码行数来衡量。500行策略如果模块边界清晰、测试完整、状态可复现,可能非常易于维护;而80行策略如果每行都互相牵制、缺乏日志、没有回放,也可能一碰就崩溃。

决定耦合复杂度上限的因素来自两方面:在代码侧,是模块边界、接口稳定性、测试覆盖率、日志可观测性、回滚成本和状态可复现性;在智能体侧,则是模型能力、上下文长度、记忆质量、工具质量以及整体迭代速度。

Atari 57中的《蒙特祖马的复仇》(Montezuma‘s Revenge)就是一个反例。在57款游戏中,有一条记录达到了400分,但其路线由86个宏动作组成,基本是开环执行。这说明有些复杂环境需要更强的程序形态来应对,比如可组合的宏动作、可恢复的搜索状态、长期记忆等,普通的if-else规则并不能解决所有问题。

下一个范式

回顾AI发展的范式转移路径:从预训练(Pretrain),到基于人类反馈的强化学习(RLHF),再到大规模强化学习(Large-scale RL)和基于视频的强化学习(RLVR)。凡是可以被验证的,都开始能被解决。

翁家翌认为,在线学习(Online Learning)和持续学习(Continual Learning)中的部分问题,可以通过启发式学习(HL)来应对。这或许能成为下一个值得关注的范式:凡是可以被持续迭代的,都开始能被解决

之所以说是“部分解决”,是因为HL并不能做神经网络所能做的一切。它受限于代码的表达能力,例如在复杂感知和长程泛化方面。目前看来,很难想象有人能用纯Python代码、不借助任何神经网络来解决ImageNet级别的图像分类任务。

因此,最有希望的方向是神经网络与HL的结合:用HL处理在线数据,快速生成在线经验;将这些经验内化为可训练、可回归测试、可筛选的数据集;再周期性地用这些数据来更新神经网络。

以机器人为例,未来可能的分工形态或许是:专用的浅层神经网络作为“系统1”(快速、直觉)的一部分,负责感知、分类、物体状态估计等任务;HL也作为“系统1”的一部分,负责处理最新数据、执行规则、运行测试、管理回放、维护记忆、设定安全边界和局部恢复;而大语言模型智能体则作为“系统2”(慢速、理性),负责为HL提供高级反馈、改进数据质量,并周期性地从HL生成的数据中提取模式来更新自身。

这套结构还可以进一步分层:关节级HL、肢体级HL、全身平衡HL、任务级HL。底层负责安全和低延迟控制,中层负责步态和接触协调,高层负责任务规划、恢复和长期记忆。编程智能体不一定直接懂得如何走路,它更像是一个插入系统的“更新管线”,持续地将失败视频、传感器数据流、仿真结果、测试结果喂给系统,再把反馈改写成代码、参数、保护规则和记忆。

说到底,过去很多启发式方法看起来没有前途,原因往往不在于它们本身太弱,而在于其高昂的维护成本让人望而却步。编程智能体改变的,正是这条维护成本曲线。规则、测试、日志、记忆和补丁,这些曾经散落的工程材料,现在开始有机会组合成一个能够持续自我更新的启发式系统。这或许才是实验背后,那个更值得深思的转变。

来源:https://www.51cto.com/article/842831.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenAI语音模型实现GPT5级推理同传翻译成本大幅降低
业界动态
OpenAI语音模型实现GPT5级推理同传翻译成本大幅降低

OpenAI刚刚一口气发布了三款全新的实时语音模型。这不仅仅是简单的技术迭代,而是将GPT-5级别的推理能力直接塞进了语音交互的管道里,更关键的是,它顺手给同声传译行业带来了一个震撼弹:现在,能紧跟发言人节奏的实时翻译,每分钟成本只要两毛五。 这三款模型——GPT-Realtime-2、GPT-Re

热心网友
05.11
OpenAI发布三款语音模型AI语音交互迎来新突破
业界动态
OpenAI发布三款语音模型AI语音交互迎来新突破

昨天凌晨,OpenAI正式揭晓了三款全新的音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方将其定位为能让开发者构建具备“实时推理、翻译和转写”能力的语音产品。目前,这三款模型已面向开发者开放测试。 这次更新的核心,在

热心网友
05.11
OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参
AI
OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参

OpenAI翁家翌的研究提出,通过编程智能体持续修改代码而非训练神经网络,可在多项任务中达到深度强化学习水平。该方法将策略更新转为维护可演进的软件系统,降低启发式系统维护成本,并为在线学习与持续学习提供新思路,未来或与神经网络结合形成分层智能系统。

热心网友
05.11
OpenAI发布GPT55Cyber预览版 面向安全团队限量开放
业界动态
OpenAI发布GPT55Cyber预览版 面向安全团队限量开放

OpenAI这周四放了个消息:他们开始向经过审核的安全团队,限量开放GPT-5 5-Cyber的预览版。简单说,这就是他们最新模型GPT-5 5的网络安全专用版本。公司方面特别强调,这个版本的目的可不是为了增强网络攻击或防御能力。它的核心逻辑在于,通过定向训练,放宽了模型在处理安全任务时的一些内置限

热心网友
05.11
马斯克起诉OpenAI庭审关键证据 2017年总裁日记揭露内部争议
业界动态
马斯克起诉OpenAI庭审关键证据 2017年总裁日记揭露内部争议

近日,埃隆·马斯克与OpenAI之间的法律纠纷在美国加州奥克兰法院进入关键庭审阶段,双方交锋持续升级。OpenAI联合创始人兼总裁格雷格·布罗克曼连续两日出庭作证。庭审中,一份引人瞩目的关键证据被当庭出示——布罗克曼在公司创立初期的私人日记,这份记录为外界揭示了这家AI领军企业早期不为人知的内部博弈

热心网友
05.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

OKX提币审核中怎么办 常见原因与等待期间应对指南
web3.0
OKX提币审核中怎么办 常见原因与等待期间应对指南

当在OKX欧易平台提币遇到“审核中”状态时,通常意味着交易触发了平台的安全风控流程。常见原因包括账户安全验证、大额提现、新设备登录或涉及高风险资产。等待期间,用户应保持耐心,检查账户信息是否完整,并可通过官方渠道查询进度。理解这一机制有助于更顺畅地进行资产管理。

热心网友
05.11
小米澎湃OS 3发布2026母亲节专属水印与门店花卉活动
科技数码
小米澎湃OS 3发布2026母亲节专属水印与门店花卉活动

小米澎湃OS3系统已全量上线母亲节限定水印,采用手绘康乃馨花束设计,用户需将相册编辑应用升级至2 3 0以上版本方可在5月13日前使用。同时,小米汽车于5月9日至10日推出门店活动,到店扫码可领取鲜花,每家门店至少备有30支。

热心网友
05.11
刺客信条黑旗记忆重置地图新增岛屿与探索内容
游戏资讯
刺客信条黑旗记忆重置地图新增岛屿与探索内容

《刺客信条:黑旗重置版》扩展了探索区域,新增岛屿与城市。玩家可招募三名拥有特殊能力的新船员,并体验更丰富的角色剧情。游戏以罗盘系统取代小地图,优化探索沉浸感,支持按键自定义,并计划加入经典操作模式。将于7月10日登陆PS5、XSX S及PC平台。

热心网友
05.11
欧易OKX新手入门指南:从官网注册到交易下载完整教程顺序
web3.0
欧易OKX新手入门指南:从官网注册到交易下载完整教程顺序

面对海量的欧易平台教程,新手常感无从下手。本文提供一份清晰的入门顺序指南,建议用户首先熟悉官网结构与安全公告,随后完成账户注册与基础安全设置。接着下载官方App并掌握基本操作,最后从现货交易开始实践,逐步学习更复杂的交易类型。遵循此路径可系统性地建立认知,安全高效地开启数字资产交易之旅。

热心网友
05.11
比亚迪闪充技术如何平衡充电速度与用户实际需求
科技数码
比亚迪闪充技术如何平衡充电速度与用户实际需求

比亚迪“闪充”技术实测充电速度领先,引发安全性与实用性讨论。行业数据显示日常仍以慢充为主,快充多用于应急。虽大功率快充可能影响电池寿命,但适度放宽充电时间或更利于技术落地。其核心价值在于提供灵活补能选择,服务于更自由从容的用车体验。

热心网友
05.11