游乐游手机版
首页/科技数码/文章详情

龙虾创始人推文引800万人围观,Loop工程到底是个啥

时间:2026-06-12 12:39
OpenClaw创始人斯坦伯格关于用循环替代提示词的观点引发800万次围观。Loop工程指设计循环使AIAgent通过目标—行动—观察—评估—修正迭代逼近结果,而非一次性指令。需设计目标、上下文管理、工具、评估和停止条件五个组件,支持Agent持续改进。

这两天,AI领域悄然掀起了一股“Loop工程”的热潮。

这场讨论的导火索,源于OpenClaw创始人斯坦伯格在X平台上发表的一个观点:“你应当停止为编程Agent撰写提示词。相反,你应该设计一套循环机制(Loop)来驱动你的Agent。”


按理说,这类前瞻性的观点通常会引发深度的技术探讨。然而现实却是,评论区瞬间演变成了一场激烈的论战。

有人质疑:Loop所消耗的Token数量相当可观,除非你拥有无限的Token资源,否则仍然离不开人工测试。也有人讽刺这是新一轮的概念炒作,并指出“Loop工程将取代Harness工程”的口号听起来似曾相识。


截至目前,这条推文的浏览量已经飙升至800万次。

实际上,“Loop工程”这个术语最早是由Claude Code的创始人鲍里斯提出的。他在一次访谈中分享道:“我现在已经不再为Claude Code编写提示词了,那些Loop会替我生成提示,由它们自行判断具体需要执行哪些修改。我的工作仅仅变成了编写Loop。”

显然,并非所有人都愿意为这个新兴概念买单。毕竟,距离上一个热词“Harness”出现,仅仅过去一两个月,大家还没来得及完全消化,就又要迎接新的知识体系了。

不过话说回来,争议归争议,Loop工程这个概念本身究竟在传达什么?它和我们熟悉的编程循环又有何本质区别?

什么是Loop?

先来解决第一个问题:Loop工程到底是什么?

Loop这个词直接翻译过来就是“循环”。Agent Loop,其实和编程中的循环(Loop)在本质上如出一辙。

在传统编程中,循环做的事情相当明确。例如,你编写一个for循环来遍历数组,机器会从第一个元素依次走到最后一个元素。在编程中,循环的本质是让机器重复执行一组明确的指令序列。

在AI Agent的语境里,Loop同样是重复执行。那么两者的区别究竟在哪里?

核心区别在于:Agent中的Loop执行的并不是“指令”,而是“目标”。它通过一个循环机制,将输出的结果持续逼近目标。当结果符合预设目标时,循环终止。这个过程可以概括为:目标设定 → 行动执行 → 结果观察 → 效果评估 → 修正调整 → 下一轮行动。

在这个公式中,每一步都不是固定不变的。Agent需要观察当前状态,判断应该采取什么行动,执行行动后再观察结果,评估是否达到了预期,然后决定下一步该如何推进。

而传统循环中,每次执行的代码逻辑都是相同的。虽然你可能会处理不同的数据,但处理方式是固定不变的。这就意味着你必须把所有可能的情况都考虑周全,然后编写出对应的处理逻辑——比如遇到A情况怎么应对,遇到B情况怎么应对,这也就是编程循环中常见的if和else语句。

但现实世界中的复杂任务往往充满了各种变数,你不可能事先预见所有场景,这就会导致当你没有设定某个情况时,程序就会出现Bug。

Agent Loop的价值恰恰体现在这里。你无需把所有情况都写死,只需要给Agent提供一个明确的目标,配备必要的工具和上下文,然后让它在Loop中自主探索。它可能会走弯路,也可能会犯错,但只要具备反馈机制和评估标准,它就能在多次迭代中逐步逼近正确答案。

这种工作方式在处理开放性任务时尤为高效。编写代码、修复漏洞、开展研究、搭建产品——这些任务的共同特点是没有唯一的正确路径,需要在过程中不断调整方向。传统程序很难应对这种不确定性,但Agent在Loop中可以轻松胜任。

澳大利亚的放羊大叔杰弗里·亨特利(Geoffrey Huntley)在2025年7月发布的Ralph,就是一个典型的Agent Loop。它本质上是一个Bash脚本,将同一个提示词文件反复输入给Agent。但它的真正创新在于纪律性:每次迭代都会重置上下文到一组固定的锚点文件,而不是让对话历史无限增长。

为了验证Ralph的能力,杰弗里用这个方法构建了一套完整的编程语言,总共花费了大约297美元。这个案例说明,Loop的核心价值不在于让Agent变得更聪明,而是为Agent创造了一个可以持续改进的环境。在这个环境中,Agent不需要一次就做对,它可以试错,可以从失败中学习,可以在多轮迭代中逐步积累进展。

到了2026年春季,Codex和Claude Code都推出了/goal命令,将Ralph的能力产品化了。这个命令会持续运行循环,直到某个验证条件达成。

但斯坦伯格所说的Loop,已经不单单是“让一个Agent反复执行某个任务”那么简单了,而是将Loop视为一种可以长期运行、相互协作、自动调度的AI工作系统。

具体来说,斯坦伯格认为Loop是工作的基本单元。以前我们给AI下达的指令是:帮我修复一个Bug,帮我撰写一篇文章。所有任务都是一次性的,完成后就结束。但斯坦伯格提到的Loop,虽然也是任务的一种,但它是一个持续运转的工作单元。比如每日检查GitHub Issue,判断哪些需要修复,自动分配给Agent,修复完成后运行测试,失败就继续修改,成功就提交PR。

这里的重点不再是“修复某一个特定的Bug”,而是存在一个长期运行的流程在处理某一类工作。当你拥有多个这样的Loop同时运行时,新的问题就出现了:谁来协调它们?谁来决定优先级?谁来检查它们的工作质量?

因此,斯坦伯格在设计Loop时,已经开始用Loop来监督其他Loop了。通过一个主Loop负责全局观察 → 它发现若干任务 → 分发到多个子Loop → 每个子Loop自行运行 → 主Loop检查它们的进度和结果。

提示词是输入,Loop是过程

斯坦伯格的那条推文之所以引发争议,是因为它触及了一个敏感话题:提示词工程是不是已经过时了?

时至今日,提示词仍然是你与Agent交流意图的主要方式,它依然需要清晰、具体、包含必要的上下文。换句话说,一个写得很糟糕的提示词,绝不会因为你把它放进Loop里,就突然变得好用了。

但是,单次的提示词已经不再是Agent的核心。原因很简单:假如你能在一开始就把所有要求说清楚,Agent只需要一次输出就能满足你的所有需求,那确实不再需要上下文了。现实情况是,你可能在看到初步结果后才发现自己遗漏了某个重要条件,或者Agent的输出虽然符合你的字面要求,但在实际使用中暴露出问题。

更关键的是,很多反馈信息在任务开始时根本不存在。比如Bug,你只有在测试的时候才能发现。

以前你需要盯着Agent的每一次输出,判断对不对,思考下一步如何引导。现在你只需要设计好Loop,定义清楚目标和评估标准,然后让它自主运行。

归根结底,Loop工程就是给Agent加装一个框架,让它知道每一轮应该看什么、做什么、如何判断、何时停止。

举个例子你就明白了:假设你要让Agent生成一个登录页面。

提示词工程的做法是撰写一个详细的提示词:“请帮我写一个登录页面。需要有用户名和密码输入框,一个登录按钮,一个忘记密码链接。样式要简洁现代,使用蓝色作为主色调。要有表单验证,用户名不能为空,密码至少8位。登录失败要显示错误提示。”如果你的提示词写得足够好,Agent可能会生成一个看起来不错的页面。但这个页面真的能用吗?表单验证的逻辑是否正确?在不同浏览器上显示是否正常?是否存在安全漏洞?

Loop工程的做法则完全不同:你需要设计一整套流程。第一步,根据需求生成页面代码。第二步,运行自动化测试,检查基本功能是否正常。第三步,启动浏览器,截取屏幕截图检查视觉效果。第四步,如果测试失败或截图显示问题,分析具体是什么原因。第五步,修改代码以解决问题。第六步,再次测试,重复这个过程,直到满足所有验收标准。

在这个流程中,初始的提示词可能很简单,因为你知道后面还有多轮迭代的机会。Agent不需要第一次就做对所有事情,它可以在每一轮收到具体的反馈,然后针对性地进行改进。

Loop工程在设计什么

那么,到底该如何编写一个Loop工程呢?我们需要设计5个核心组件。

第一个组件:目标

这听起来像是废话,但实际上很多Loop失败的原因,就是目标定义得不够清晰。“帮我优化一下”这并不是一个好目标——什么叫优化?优化到什么程度算完成?有哪些约束条件?这些都不明确。

一个好的目标应该是这样的:“将这个接口的响应时间从800毫秒降低到300毫秒以下。保留现有行为,所有测试必须通过。输出改动说明,列出具体做了哪些优化。”这个目标的每一部分都是可验证的。清晰的目标实际上是为Agent提供了一个稳定的锚点,每一轮迭代都可以用这个锚点来校准方向。

第二个组件:上下文管理

上下文其实包含很多内容,不只是你跟模型之间的对话那么简单。代码库的当前状态、相关文档、需求说明、错误日志、测试结果、用户偏好、历史决策,以及之前几轮的尝试和结果,这些都是上下文的重要组成部分。

很多Agent表现不佳,根本原因不是模型不够聪明,而是Loop每一轮喂给它的上下文太脏、太少,或者太随机。太脏是指上下文里混杂了大量无关信息,Agent需要花费大量Token来处理这些噪音;太少是指关键信息缺失,Agent没有足够的材料来做出正确判断;太随机是指每一轮的上下文组织方式不一致,Agent无法建立稳定的理解模式。

前文提到的Ralph Loop,它有一个很重要的创新就是上下文管理系统:它每次迭代都会重置上下文到一组固定的锚点文件,而不是让对话历史无限增长。虽然方法简单,但它的确解决了上下文污染的问题。你需要决定哪些信息应该保留,哪些应该丢弃,哪些应该总结后保留。2026年的Loop系统开始使用基于Git的状态管理,每一轮的改动都会提交到Git,Agent可以查看历史提交,理解之前做了什么,以及为什么要这样做。

第三个组件:工具

说白了,就是Agent能够调用哪些工具。巧妇难为无米之炊,工具的选择需要与任务匹配。如果你让Agent写代码,但不给它运行测试的工具,那它就无法验证代码是否正确。但工具也不是越多越好——每增加一个工具,Agent的决策空间就会变大,它需要在更多选项中做出选择。如果工具太多,Agent可能会迷失在工具的使用上,反而忘记了真正的目标。

好的Loop设计会精心选择工具集,只提供完成任务所必需的工具,每个工具都有清晰的用途和使用时机。这样Agent可以把注意力集中在任务本身,而不是工具的选择上。

第四个组件:评估

这是Loop的灵魂。没有评估,循环就会变成盲目转圈。评估的关键在于自动化——如果每一轮都需要人来判断对不对,Loop就失去了自主运行的能力。因此,你需要设计出可以自动执行的评估标准,让Agent能够自行判断当前状态是否满足要求。

但自动化评估也有其局限性:有些质量标准很难用量化的指标来判断,比如代码的可读性、设计的美感、文字的流畅度。对于这些方面,你可能需要引入人工检查点,让人在关键节点介入评估。AI领域有一个概念叫Human-in-the-Loop——好的Loop不是把人排除在外,而是把人放在最关键的检查点上。自动化处理大部分常规判断,人则负责那些需要主观判断或风险较高的决策。

第五个组件:停止条件

从最古老的编程开始,任何一个循环都必须具备一个退出的条件。比如循环计数器i,每一次循环i的数值都会加1,当i的值大于规定的数值时,循环就会停止。

对于Agent而言,最理想的停止条件是任务完成,但现实往往不会那么顺利。有时候Agent会陷入死循环,反复尝试同样的方案,每次都失败,但它不知道应该放弃。有时候Agent也会持续做微小的改动,每次都有一点点改进,但永远达不到完美,不知道应该在何处停下来。

因此,你需要设计多种停止条件。最直接的是成功条件:所有评估都通过,任务达标,可以停止了。然后是失败条件:连续多轮没有改进,或者错误次数超过阈值,说明当前方案可能走不通,应该停下来重新思考。还有资源限制:运行时间超过上限,成本超过预算,也应该停止。

更重要的是风险检查点:当Agent要执行一些高风险操作时,比如删除数据,应该停下来等待人工确认。这些操作一旦出错代价很大,不应完全自动化。

把这五个组件整合在一起,你就得到了一个完整的Loop。

来源:https://www.163.com/dy/article/KV5O1GET05118O92.html
上一篇奔驰法拉利CEO罕见同台:欧洲车企力挺电动化但拒绝单一路线 下一篇京东MALL首批实习机器人到岗 人机协作开启零售新场景
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。