【深度解读】澳洲开发者三行Bash脚本引爆AI编程革命:OpenAI、Anthropic、Hermes 11天内集体跟进,AI编程进入“闭环交付”时代
AI编程领域迎来重大突破!Claude Code 近日重磅更新,推出了一项改变游戏规则的新功能:/goal 目标驱动模式。
通过设定明确目标,Claude Code 现在能够像不知疲倦的助手一样,持续工作直至任务完成为止,彻底解决了AI编程工具“半途而废”的痛点。

只需输入一个指令,Claude 便会进入全自动工作状态,不达目标绝不停止。

对于任何使用过AI编程助手的人来说,这一功能的价值不言而喻。
你是否遇到过这样的场景:向AI助手下达一个复杂的编程任务,它执行了几步、修改了几个文件后,突然停下来询问“接下来需要我做什么?”,而实际上,关键的Bug修复或功能实现尚未完成。
这种“任务中断”问题长期困扰着开发者。

尽管AI智能体(Agent)在代码生成速度和理解能力上飞速进步,但“独立、完整地完成一项任务”这一核心能力,直到2026年初,仍是行业普遍面临的挑战。
然而,一位来自澳大利亚的开发者Geoffrey Huntley,仅用三行Bash脚本就提出了一个开创性的解决方案。
- while:;do
- cat PROMPT.md | claude-code --continue
- done
他将这个脚本命名为Ralph Loop,灵感来源于《辛普森一家》中那个屡败屡战、永不放弃的角色Ralph Wiggum。
其逻辑简单而强大:构建一个无限循环,持续将同一个任务指令(Prompt)喂给AI智能体。工作进度通过文件系统和Git历史记录来保存,当上下文窗口耗尽时,便启动新实例,读取文件状态后继续执行。

这个方法虽然原始,却异常有效。
其有效性迅速引起了行业巨头的注意。OpenAI看到了,Nous Research看到了,Anthropic也看到了。
在短短11天内,这三家顶尖的AI实验室不约而同地将“Ralph Loop”的核心思想整合进了各自的官方产品中。
这一事件标志着一个行业共识的形成——
迈向通用人工智能(AGI)的关键一步,或许不在于制造更“聪明”的模型,而在于打造更“可靠”、能“有始有终”的模型。
换言之,AI编程竞争的核心,正从“代码生成能力”转向“任务闭环交付能力”。
11天,三大厂商,殊途同归的解决方案
4月30日,OpenAI的Codex率先集成了/goal功能。
Greg Brockman在X上简洁地宣布:“Codex now has Ralph loop++ built in.”

一周后,Hermes Agent迅速跟进。四天之后,Claude Code也加入了战局。
11天,三家巨头,围绕同一个核心需求,推出了相似命名的功能。
但三家的技术实现路径却截然不同,各有侧重。
简而言之:Codex解决了“记忆持久化”问题,Hermes构建了“防故障体系”,而Claude Code引入了“第三方验收”机制。

OpenAI Codex:将目标持久化为数据库记录
OpenAI是三家中最先响应的,其方案也最为简洁和工程化。
在Codex中,/goal被实现为一个持久化的工作流对象,直接存储在本地的应用服务器状态层中。
这意味着,即使你关闭终端、合上笔记本电脑甚至重启系统,你设定的目标都不会丢失。下次打开Codex时,它会自动从上次中断的地方无缝衔接,继续工作。

模型通过一个结构化的`update_goal`工具来汇报进度。当Token预算耗尽时,系统触发的是“优雅暂停”而非强制终止。
已有用户利用此功能让Codex连续运行了14个小时,中间暂停5小时休息后,回来发现Codex能从断点处准确恢复,最终成功完成了一个复杂的设备驱动开发项目。
整个方案体现了工程师思维的克制与优雅。

Hermes Agent:单兵作战不够,就上团队协作
相比之下,Hermes Agent的架构野心更大。
在这里,/goal只是其庞大系统的一环。真正的核心是其强大的多智能体看板系统。Hermes将“让AI完成工作”的命题,从单智能体的耐力挑战,升级为了多智能体的协同作战。

看板底层基于本地SQLite数据库,同样具备持久化存储能力,重启后数据不丢失。
当你在看板上创建一个任务卡片时,Hermes会自动将其拆解为多个子任务,并分配给不同的Agent工作进程。每个工作进程都是独立的操作系统进程,拥有自己的身份、模型配置和工作目录。
/goal与看板系统相辅相成。/goal负责锁定单个Agent的长期目标(即Ralph Loop的核心),而看板则负责协调多个Agent之间的任务调度与协作。一个纵向深化,一个横向扩展。
最令人印象深刻的是其五层“防烂尾”保障机制,堪称智能体领域的“安全生产标准”。
第一层,心跳检测。每个工作进程必须定期向看板“签到”,证明自己仍在运行。
第二层,僵尸回收。工作进程超时无响应?系统自动判定其“失活”,回收其任务并重新分配给其他进程。在macOS上,甚至有针对性的达尔文僵尸进程检测逻辑。
第三层,退出拦截。工作进程未完成任务就退出?系统会自动将其标记为`blocked`,阻止其领取新任务,防止出现“只领任务不干活”的无效Agent。
第四层,幻觉拦截。这是最严格的一层。AI口头声称“任务完成”无效,系统会验证其实际产出的代码是否已真正写入磁盘。如果Agent声称创建了文件但实际没有,系统会捕获该错误,回滚操作并重试。
第五层,重试预算。每个任务都有独立的`max_retries`(最大重试次数)设置。超过上限后,任务将自动上报给人类处理,从根本上杜绝了因无限重试导致系统僵死的风险。

Claude Code:执行者与验收者分离,杜绝自我欺骗
Anthropic虽然是最后出手的,但其方案设计极为精巧,直指AI智能体工作的一个核心缺陷:自我评估的盲点。
本质上,Claude Code的/goal是一个会话级别的停止钩子。
你设定一个明确的完成条件(例如:“test/auth目录下所有测试用例通过且代码规范检查无错误”),Claude便会开始执行任务。

关键设计在于验收环节。每完成一轮工作后,系统不会让Claude自己判断“我是否做完了”。
相反,它会将完整的对话记录连同你设定的完成条件,一并发送给一个独立的、更轻量级的模型(默认为Haiku),由这个“裁判”模型来进行最终裁决。
如果裁判模型认为任务未完成,必须返回具体的理由(例如:“test_login.py中仍有2个测试失败”)。这个理由会被精准地注入Claude下一轮工作的上下文中,指导其进行针对性修复。
如果裁判模型判定条件已满足,目标便会自动清除,任务优雅结束。
值得一提的是,这个裁判模型不调用任何工具,不读取文件系统,也不执行命令。它仅基于Claude在对话中产生的文本内容进行判断。
因此,你设定的完成条件,必须是Claude能在对话中提供证据予以证明的内容。条件最长支持4000字符,足以进行非常细致的描述。
你甚至可以在条件中附加约束,例如“不得修改其他测试文件”、“限20轮内完成,否则停止”等,从而实现更精细化的流程控制。

决赛圈:争夺下一代开发者工作流入口
将视角拉高,我们会发现更大的图景。
Claude Code背后是Anthropic,Codex背后是OpenAI,而Hermes Agent同时接入了这两家的模型,并且也是DeepSeek V4等优秀模型的主要分发渠道之一。
这三条技术路径,恰好覆盖了当前人工智能(AI)及人工通用智能(AGI)竞争中最关键的三个生态入口。
而它们共同争夺的,其实是同一个东西:开发者工作流。
哪家的AI智能体能率先让开发者养成“设定目标即可离开,回来直接验收成果”的习惯,谁就牢牢锁定了下一代软件开发工作流的入口。
因为这种高效、自动化的工作习惯一旦形成,迁移成本将呈指数级上升。开发者不会轻易离开一个已经集成了看板调度、断点续传、检查点回滚等成熟功能的智能体基础设施。
一个看似简单的`/goal`命令,其背后关乎的是整个AI编程工作流生态的护城河建设。这场关于“任务完成度”与“交付可靠性”的竞赛,实际上才刚刚拉开序幕。
