这周翻了510个Agent session,一个强烈的感受是:Agent越强,人越要会管理。别再只研究prompt和模型版本了——真正拉开差距的,是你有没有给Agent设目标、定考核、给反馈、沉淀流程。
01 翻完510个session,看到的不是自动化,是管理问题
510个session,覆盖15个Agent,时间范围一周。session数最多的几个:后端93个,前端87个,短视频58个,设计46个,市场侦察37个,SEO 37个,产品策略30个。然后数了一下高频词,出现频次Top:注意,出现频率最高的词,没有一个是模型名,没有一个是prompt技巧。全是交接、阻塞、验收、复盘。
这说明什么?多Agent系统进入真实工作流之后,暴露出来的问题从"会不会写代码"变成了:任务怎么交,谁来判断完成,卡住了怎么办,做错了往哪复盘。这是管理问题,不是技术问题。
02 把Agent当工具用,很快会卡住
很多人现在用AI的方式还是:写个prompt,等输出,盯实现,不对就重来或者换模型。这个方式在单次对话里没问题,但用来带Agent团队,很快会卡住。原因很简单:Agent的单次执行能力已经够用,瓶颈在协作结构。给它任务的时候,如果没说清楚目标是什么、上下文是什么、什么情况要停下来等确认、怎么算做完——它也只能靠猜。猜出来的结果,有时对,更多时候需要大量返工。
外部研究也说明这点。Human-Agent Collaboration领域的综述研究指出:人类在交互中持续提供信息、反馈和控制,是提升Agent可靠性和安全性的关键。完全自主的Agent在hallucination、复杂任务、伦理边界上仍有系统性局限,换个更强模型不能彻底解决这些问题。TheAgentCompany做了一个模拟真实软件公司的benchmark,让Agent处理真实工作任务:写代码、浏览Web、与"同事"沟通,论文摘要里说,最强baseline agent完成30%的任务。全自动不是当下的主线,协作方式才是。
03 人类的价值,正在从"会实现"变成"会校准"
这周有个短视频任务,是个很好的例子。Agent交付了内容,看了一眼:BGM不对,文案来源模糊,选题也不是当天的最佳方向。把问题反馈回去,Agent自查后承认——没有完全按流程走,只能算半流程产物,不建议直接发。然后呢?补了几条硬规则:必须真实调用指定创作流程,BGM必须有可商用授权记录,必须有contact-sheet和机械门禁检查。补完之后重做,这次机械门禁PASS,内容可以发。
这次反馈的价值,不是发现了一个错误。而是:人类的每一次校准,都是在给Agent标注训练样本。反馈变成了guardrails、变成了playbook,下一次Agent就更稳。人不是监工,人是测试集。盯的不应该是每一步怎么实现,而是最终交付了什么、有没有可验证的证据、出了问题能不能快速定位到哪一步出的错。
04 现在怎么给Agent下任务
这是摸索出来的下任务模板,不是理论,是实际在用的。每次给Agent分配任务,会明确六件事:
目标:这个任务要达成什么结果。别只写"写篇文章",要写清读者是谁、核心观点是什么、发布后看哪个指标。目标越具体,Agent越容易对齐。
输入:给Agent的材料是什么。截图、数据、上游任务的输出、参考样本——越具体越好。不要让它自己去猜上下文,猜出来的假设一旦偏了,整个任务方向就歪了。
输出格式:要一个markdown文档,还是一段可直接复制的文案,还是图片加说明。格式不明确,返工率极高,因为Agent默认的输出结构往往和你实际需要的不一样。
验收条件:怎么判断任务完成。有没有字数要求、有没有质量门禁、有没有必须通过的检查项。这是最容易被跳过的一步,也是最重要的——没有验收条件,任务就没有终点。
禁区:哪些操作不允许自主执行。不能直接发布内容,不能修改生产数据,不能代表账号公开发言——这些必须明确写出来,不能靠Agent自己判断边界在哪里。
失败回调:出了问题怎么处理。是静默失败、报错等待人工,还是降级跑备用流程。没有失败回调的任务,出了问题会让整条链路卡住,没人知道从哪里重启。
这六件事,缺一件,任务就有漏洞。人不需要盯每一步实现,但得能在任务结束后,用交付证据判断:这次Agent到底做到了没有。如果做不到这个判断,就说明任务没有设计好,而不是Agent不行。
05 真正好用的Agent团队,需要考核系统
另一个案例是多Agent协作流水线。在某个节点,几个下游Agent同时BLOCKED——原因是上游前端还没有final commit、没有deploy、没有checkpoint。很多人看到这个会觉得:怎么又卡了?判断反过来:这是成熟表现。下游不拿不确定的输入硬做,意味着任务系统开始像真实团队一样运作。状态不清,就停下来等,不胡乱推进。
要让这种机制稳定工作,需要五件事:目标(这个任务要达成什么结果,用什么指标衡量)、禁止动作(哪些操作不允许自主执行,必须等确认)、验收命令(怎么判断任务完成,谁来确认)、回滚方式(出了问题怎么恢复)、人工确认点(哪些节点必须人过一遍)。Kanban作为source of truth,记录任务状态。Telegram只负责可见性,不做决策依据。
这个设计背后的逻辑,和principal-agent理论高度一致:人把任务委托给Agent,但delegation、oversight、accountability的结构必须设计好,不能全靠Agent自己摸索。
还有一个增长/社区预热的任务,做了一系列动作,但互动结果弱。让Agent做深度复盘,发现OKR部分有效,但策略偏保守,不够触发互动。这个结果指向的不是"Agent没用"。复盘的终点是下一轮任务的输入——考核的目的是把下一步说清楚,而不是判定这一次对不对。复盘出P1/P0问题,这些问题直接变成下一轮任务的输入。迭代才是主线,不是追求一次做对。
06 以后会有一类人,专门"带Agent"
越来越确信,接下来会出现一类新的高价值角色:不是prompt工程师,也不一定写每行代码。他们知道:什么任务可以交出去,什么节点必须人工确认,什么指标没动就是失败。他们能把业务流程拆解成Agent能安全接手的任务系统,能给Agent写好目标和边界,能从输出里识别出哪里需要校准。叫AI team manager,或者agent operator,名字不重要。重要的是:这个能力,现在没有多少人在系统地培养。
对独立开发者来说,下一项能力不是再买一个新模型,不是刷最新benchmark。而是把自己的业务改造成Agent能安全接手的任务系统。以前会盯Agent每一步怎么做,现在更关心它最后交付什么、有没有证据、出了问题能不能复盘。这个转变发生在某一个时刻,你会突然意识到:你不是在用工具,你在带团队。
你现在用AI,是在"问答",还是在"管理"?
