澳洲牧羊人用AI编程革新 Claude Code推出强制目标完成模式

时间：2026-05-14 12:37

澳洲牧羊人用三行bash代码启发了AI编程工具的核心改进。OpenAI、Anthropic和Hermes在11天内相继推出 goal功能，确保AI能持续工作直至任务完成。OpenAI的方案注重持久化与断点续传；Hermes通过多智能体协作和防烂尾机制提升可靠性；Claude则引入独立模型进行结果验收，避免自我评估偏差。这场竞争聚焦于工作流入口，旨在让开发者养

【深度解读】澳洲开发者三行Bash脚本引爆AI编程革命：OpenAI、Anthropic、Hermes 11天内集体跟进，AI编程进入“闭环交付”时代

AI编程领域迎来重大突破！Claude Code 近日重磅更新，推出了一项改变游戏规则的新功能：/goal 目标驱动模式。

通过设定明确目标，Claude Code 现在能够像不知疲倦的助手一样，持续工作直至任务完成为止，彻底解决了AI编程工具“半途而废”的痛点。

只需输入一个指令，Claude 便会进入全自动工作状态，不达目标绝不停止。

对于任何使用过AI编程助手的人来说，这一功能的价值不言而喻。

你是否遇到过这样的场景：向AI助手下达一个复杂的编程任务，它执行了几步、修改了几个文件后，突然停下来询问“接下来需要我做什么？”，而实际上，关键的Bug修复或功能实现尚未完成。

这种“任务中断”问题长期困扰着开发者。

尽管AI智能体（Agent）在代码生成速度和理解能力上飞速进步，但“独立、完整地完成一项任务”这一核心能力，直到2026年初，仍是行业普遍面临的挑战。

然而，一位来自澳大利亚的开发者Geoffrey Huntley，仅用三行Bash脚本就提出了一个开创性的解决方案。

while:;do
cat PROMPT.md | claude-code --continue
done

他将这个脚本命名为Ralph Loop，灵感来源于《辛普森一家》中那个屡败屡战、永不放弃的角色Ralph Wiggum。

其逻辑简单而强大：构建一个无限循环，持续将同一个任务指令（Prompt）喂给AI智能体。工作进度通过文件系统和Git历史记录来保存，当上下文窗口耗尽时，便启动新实例，读取文件状态后继续执行。

这个方法虽然原始，却异常有效。

其有效性迅速引起了行业巨头的注意。OpenAI看到了，Nous Research看到了，Anthropic也看到了。

在短短11天内，这三家顶尖的AI实验室不约而同地将“Ralph Loop”的核心思想整合进了各自的官方产品中。

这一事件标志着一个行业共识的形成——

迈向通用人工智能（AGI）的关键一步，或许不在于制造更“聪明”的模型，而在于打造更“可靠”、能“有始有终”的模型。

换言之，AI编程竞争的核心，正从“代码生成能力”转向“任务闭环交付能力”。

11天，三大厂商，殊途同归的解决方案

4月30日，OpenAI的Codex率先集成了/goal功能。

Greg Brockman在X上简洁地宣布：“Codex now has Ralph loop++ built in.”

一周后，Hermes Agent迅速跟进。四天之后，Claude Code也加入了战局。

11天，三家巨头，围绕同一个核心需求，推出了相似命名的功能。

但三家的技术实现路径却截然不同，各有侧重。

简而言之：Codex解决了“记忆持久化”问题，Hermes构建了“防故障体系”，而Claude Code引入了“第三方验收”机制。

OpenAI Codex：将目标持久化为数据库记录

OpenAI是三家中最先响应的，其方案也最为简洁和工程化。

在Codex中，/goal被实现为一个持久化的工作流对象，直接存储在本地的应用服务器状态层中。

这意味着，即使你关闭终端、合上笔记本电脑甚至重启系统，你设定的目标都不会丢失。下次打开Codex时，它会自动从上次中断的地方无缝衔接，继续工作。

模型通过一个结构化的`update_goal`工具来汇报进度。当Token预算耗尽时，系统触发的是“优雅暂停”而非强制终止。

已有用户利用此功能让Codex连续运行了14个小时，中间暂停5小时休息后，回来发现Codex能从断点处准确恢复，最终成功完成了一个复杂的设备驱动开发项目。

整个方案体现了工程师思维的克制与优雅。

Hermes Agent：单兵作战不够，就上团队协作

相比之下，Hermes Agent的架构野心更大。

在这里，/goal只是其庞大系统的一环。真正的核心是其强大的多智能体看板系统。Hermes将“让AI完成工作”的命题，从单智能体的耐力挑战，升级为了多智能体的协同作战。

看板底层基于本地SQLite数据库，同样具备持久化存储能力，重启后数据不丢失。

当你在看板上创建一个任务卡片时，Hermes会自动将其拆解为多个子任务，并分配给不同的Agent工作进程。每个工作进程都是独立的操作系统进程，拥有自己的身份、模型配置和工作目录。

/goal与看板系统相辅相成。/goal负责锁定单个Agent的长期目标（即Ralph Loop的核心），而看板则负责协调多个Agent之间的任务调度与协作。一个纵向深化，一个横向扩展。

最令人印象深刻的是其五层“防烂尾”保障机制，堪称智能体领域的“安全生产标准”。

第一层，心跳检测。每个工作进程必须定期向看板“签到”，证明自己仍在运行。
第二层，僵尸回收。工作进程超时无响应？系统自动判定其“失活”，回收其任务并重新分配给其他进程。在macOS上，甚至有针对性的达尔文僵尸进程检测逻辑。
第三层，退出拦截。工作进程未完成任务就退出？系统会自动将其标记为`blocked`，阻止其领取新任务，防止出现“只领任务不干活”的无效Agent。
第四层，幻觉拦截。这是最严格的一层。AI口头声称“任务完成”无效，系统会验证其实际产出的代码是否已真正写入磁盘。如果Agent声称创建了文件但实际没有，系统会捕获该错误，回滚操作并重试。
第五层，重试预算。每个任务都有独立的`max_retries`（最大重试次数）设置。超过上限后，任务将自动上报给人类处理，从根本上杜绝了因无限重试导致系统僵死的风险。

Claude Code：执行者与验收者分离，杜绝自我欺骗

Anthropic虽然是最后出手的，但其方案设计极为精巧，直指AI智能体工作的一个核心缺陷：自我评估的盲点。

本质上，Claude Code的/goal是一个会话级别的停止钩子。

你设定一个明确的完成条件（例如：“test/auth目录下所有测试用例通过且代码规范检查无错误”），Claude便会开始执行任务。

关键设计在于验收环节。每完成一轮工作后，系统不会让Claude自己判断“我是否做完了”。

相反，它会将完整的对话记录连同你设定的完成条件，一并发送给一个独立的、更轻量级的模型（默认为Haiku），由这个“裁判”模型来进行最终裁决。

如果裁判模型认为任务未完成，必须返回具体的理由（例如：“test_login.py中仍有2个测试失败”）。这个理由会被精准地注入Claude下一轮工作的上下文中，指导其进行针对性修复。

如果裁判模型判定条件已满足，目标便会自动清除，任务优雅结束。

值得一提的是，这个裁判模型不调用任何工具，不读取文件系统，也不执行命令。它仅基于Claude在对话中产生的文本内容进行判断。

因此，你设定的完成条件，必须是Claude能在对话中提供证据予以证明的内容。条件最长支持4000字符，足以进行非常细致的描述。

你甚至可以在条件中附加约束，例如“不得修改其他测试文件”、“限20轮内完成，否则停止”等，从而实现更精细化的流程控制。

决赛圈：争夺下一代开发者工作流入口

将视角拉高，我们会发现更大的图景。

Claude Code背后是Anthropic，Codex背后是OpenAI，而Hermes Agent同时接入了这两家的模型，并且也是DeepSeek V4等优秀模型的主要分发渠道之一。

这三条技术路径，恰好覆盖了当前人工智能（AI）及人工通用智能（AGI）竞争中最关键的三个生态入口。

而它们共同争夺的，其实是同一个东西：开发者工作流。

哪家的AI智能体能率先让开发者养成“设定目标即可离开，回来直接验收成果”的习惯，谁就牢牢锁定了下一代软件开发工作流的入口。

因为这种高效、自动化的工作习惯一旦形成，迁移成本将呈指数级上升。开发者不会轻易离开一个已经集成了看板调度、断点续传、检查点回滚等成熟功能的智能体基础设施。

一个看似简单的`/goal`命令，其背后关乎的是整个AI编程工作流生态的护城河建设。这场关于“任务完成度”与“交付可靠性”的竞赛，实际上才刚刚拉开序幕。

来源：https://36kr.com/p/3807610454793732

Claude

上一篇田渊栋离开Meta后创业项目正式官宣 下一篇AI编程工具Codex两小时完成博士80小时代码改写任务

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

澳洲牧羊人用AI编程革新 Claude Code推出强制目标完成模式