游乐游手机版
首页/业界动态/文章详情

澳洲牧羊人用AI编程革新 Claude Code推出强制目标完成模式

时间:2026-05-14 12:37
澳洲牧羊人用三行bash代码启发了AI编程工具的核心改进。OpenAI、Anthropic和Hermes在11天内相继推出 goal功能,确保AI能持续工作直至任务完成。OpenAI的方案注重持久化与断点续传;Hermes通过多智能体协作和防烂尾机制提升可靠性;Claude则引入独立模型进行结果验收,避免自我评估偏差。这场竞争聚焦于工作流入口,旨在让开发者养

【深度解读】澳洲开发者三行Bash脚本引爆AI编程革命:OpenAI、Anthropic、Hermes 11天内集体跟进,AI编程进入“闭环交付”时代

AI编程领域迎来重大突破!Claude Code 近日重磅更新,推出了一项改变游戏规则的新功能:/goal 目标驱动模式

通过设定明确目标,Claude Code 现在能够像不知疲倦的助手一样,持续工作直至任务完成为止,彻底解决了AI编程工具“半途而废”的痛点。

只需输入一个指令,Claude 便会进入全自动工作状态,不达目标绝不停止。

对于任何使用过AI编程助手的人来说,这一功能的价值不言而喻。

你是否遇到过这样的场景:向AI助手下达一个复杂的编程任务,它执行了几步、修改了几个文件后,突然停下来询问“接下来需要我做什么?”,而实际上,关键的Bug修复或功能实现尚未完成。

这种“任务中断”问题长期困扰着开发者。

尽管AI智能体(Agent)在代码生成速度和理解能力上飞速进步,但“独立、完整地完成一项任务”这一核心能力,直到2026年初,仍是行业普遍面临的挑战。

然而,一位来自澳大利亚的开发者Geoffrey Huntley,仅用三行Bash脚本就提出了一个开创性的解决方案。

  • while:;do
  • cat PROMPT.md | claude-code --continue
  • done

他将这个脚本命名为Ralph Loop,灵感来源于《辛普森一家》中那个屡败屡战、永不放弃的角色Ralph Wiggum。

其逻辑简单而强大:构建一个无限循环,持续将同一个任务指令(Prompt)喂给AI智能体。工作进度通过文件系统和Git历史记录来保存,当上下文窗口耗尽时,便启动新实例,读取文件状态后继续执行。

这个方法虽然原始,却异常有效。

其有效性迅速引起了行业巨头的注意。OpenAI看到了,Nous Research看到了,Anthropic也看到了。

在短短11天内,这三家顶尖的AI实验室不约而同地将“Ralph Loop”的核心思想整合进了各自的官方产品中。

这一事件标志着一个行业共识的形成——

迈向通用人工智能(AGI)的关键一步,或许不在于制造更“聪明”的模型,而在于打造更“可靠”、能“有始有终”的模型。

换言之,AI编程竞争的核心,正从“代码生成能力”转向“任务闭环交付能力”。

11天,三大厂商,殊途同归的解决方案

4月30日,OpenAI的Codex率先集成了/goal功能。

Greg Brockman在X上简洁地宣布:“Codex now has Ralph loop++ built in.”

一周后,Hermes Agent迅速跟进。四天之后,Claude Code也加入了战局。

11天,三家巨头,围绕同一个核心需求,推出了相似命名的功能。

但三家的技术实现路径却截然不同,各有侧重。

简而言之:Codex解决了“记忆持久化”问题,Hermes构建了“防故障体系”,而Claude Code引入了“第三方验收”机制。

OpenAI Codex:将目标持久化为数据库记录

OpenAI是三家中最先响应的,其方案也最为简洁和工程化。

在Codex中,/goal被实现为一个持久化的工作流对象,直接存储在本地的应用服务器状态层中。

这意味着,即使你关闭终端、合上笔记本电脑甚至重启系统,你设定的目标都不会丢失。下次打开Codex时,它会自动从上次中断的地方无缝衔接,继续工作。

模型通过一个结构化的`update_goal`工具来汇报进度。当Token预算耗尽时,系统触发的是“优雅暂停”而非强制终止。

已有用户利用此功能让Codex连续运行了14个小时,中间暂停5小时休息后,回来发现Codex能从断点处准确恢复,最终成功完成了一个复杂的设备驱动开发项目。

整个方案体现了工程师思维的克制与优雅。

Hermes Agent:单兵作战不够,就上团队协作

相比之下,Hermes Agent的架构野心更大。

在这里,/goal只是其庞大系统的一环。真正的核心是其强大的多智能体看板系统。Hermes将“让AI完成工作”的命题,从单智能体的耐力挑战,升级为了多智能体的协同作战。

看板底层基于本地SQLite数据库,同样具备持久化存储能力,重启后数据不丢失。

当你在看板上创建一个任务卡片时,Hermes会自动将其拆解为多个子任务,并分配给不同的Agent工作进程。每个工作进程都是独立的操作系统进程,拥有自己的身份、模型配置和工作目录。

/goal与看板系统相辅相成。/goal负责锁定单个Agent的长期目标(即Ralph Loop的核心),而看板则负责协调多个Agent之间的任务调度与协作。一个纵向深化,一个横向扩展。

最令人印象深刻的是其五层“防烂尾”保障机制,堪称智能体领域的“安全生产标准”。

第一层,心跳检测。每个工作进程必须定期向看板“签到”,证明自己仍在运行。
第二层,僵尸回收。工作进程超时无响应?系统自动判定其“失活”,回收其任务并重新分配给其他进程。在macOS上,甚至有针对性的达尔文僵尸进程检测逻辑。
第三层,退出拦截。工作进程未完成任务就退出?系统会自动将其标记为`blocked`,阻止其领取新任务,防止出现“只领任务不干活”的无效Agent。
第四层,幻觉拦截。这是最严格的一层。AI口头声称“任务完成”无效,系统会验证其实际产出的代码是否已真正写入磁盘。如果Agent声称创建了文件但实际没有,系统会捕获该错误,回滚操作并重试。
第五层,重试预算。每个任务都有独立的`max_retries`(最大重试次数)设置。超过上限后,任务将自动上报给人类处理,从根本上杜绝了因无限重试导致系统僵死的风险。

Claude Code:执行者与验收者分离,杜绝自我欺骗

Anthropic虽然是最后出手的,但其方案设计极为精巧,直指AI智能体工作的一个核心缺陷:自我评估的盲点。

本质上,Claude Code的/goal是一个会话级别的停止钩子。

你设定一个明确的完成条件(例如:“test/auth目录下所有测试用例通过且代码规范检查无错误”),Claude便会开始执行任务。

关键设计在于验收环节。每完成一轮工作后,系统不会让Claude自己判断“我是否做完了”

相反,它会将完整的对话记录连同你设定的完成条件,一并发送给一个独立的、更轻量级的模型(默认为Haiku),由这个“裁判”模型来进行最终裁决。

如果裁判模型认为任务未完成,必须返回具体的理由(例如:“test_login.py中仍有2个测试失败”)。这个理由会被精准地注入Claude下一轮工作的上下文中,指导其进行针对性修复。

如果裁判模型判定条件已满足,目标便会自动清除,任务优雅结束。

值得一提的是,这个裁判模型不调用任何工具,不读取文件系统,也不执行命令。它仅基于Claude在对话中产生的文本内容进行判断。

因此,你设定的完成条件,必须是Claude能在对话中提供证据予以证明的内容。条件最长支持4000字符,足以进行非常细致的描述。

你甚至可以在条件中附加约束,例如“不得修改其他测试文件”、“限20轮内完成,否则停止”等,从而实现更精细化的流程控制。

决赛圈:争夺下一代开发者工作流入口

将视角拉高,我们会发现更大的图景。

Claude Code背后是Anthropic,Codex背后是OpenAI,而Hermes Agent同时接入了这两家的模型,并且也是DeepSeek V4等优秀模型的主要分发渠道之一。

这三条技术路径,恰好覆盖了当前人工智能(AI)及人工通用智能(AGI)竞争中最关键的三个生态入口。

而它们共同争夺的,其实是同一个东西:开发者工作流

哪家的AI智能体能率先让开发者养成“设定目标即可离开,回来直接验收成果”的习惯,谁就牢牢锁定了下一代软件开发工作流的入口。

因为这种高效、自动化的工作习惯一旦形成,迁移成本将呈指数级上升。开发者不会轻易离开一个已经集成了看板调度、断点续传、检查点回滚等成熟功能的智能体基础设施。

一个看似简单的`/goal`命令,其背后关乎的是整个AI编程工作流生态的护城河建设。这场关于“任务完成度”与“交付可靠性”的竞赛,实际上才刚刚拉开序幕。

来源:https://36kr.com/p/3807610454793732
上一篇田渊栋离开Meta后创业项目正式官宣 下一篇AI编程工具Codex两小时完成博士80小时代码改写任务
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿