工业级智能体痛点:长任务飘忽与无限探索问题解析
时间:2026-05-30 15:21
个人AI提效,救不了组织的低效 2026年,人工智能正式跨越了从“概率性文本生成”到“确定性自主执行”的惊人鸿沟。 前几年聊Agent,更多是在聊科幻片里的想象力:它会不会替代人类?会不会成为下一代操作系统的入口?会不会改写软件工程的底层规则? 但今年不一样了。随着OpenClaw为代表的前沿项
# 个人AI提效,救不了组织的低效
2026年,人工智能正式跨越了从“概率性文本生成”到“确定性自主执行”的惊人鸿沟。
前几年聊Agent,更多是在聊科幻片里的想象力:它会不会替代人类?会不会成为下一代操作系统的入口?会不会改写软件工程的底层规则?
但今年不一样了。随着OpenClaw为代表的前沿项目掀起一阵席卷全球的“龙虾热”,Agentic AI彻底出圈。AI正在剥掉“聊天辅助工具”的外衣,演变成能端到端编排复杂工作流、自主调用外部API、甚至直接操控机器人的“数字同事”。
当浪漫的“零代码”叙事撞上残酷的工业级生产环境,真正棘手的新问题才开始浮出水面。无休止的“幻觉探索”烧毁了海量Token,松散的提示词导致多步骤任务频繁断裂,缺乏状态回滚机制的“自主执行”让企业级落地步步惊心。
狂热褪去之后,一场属于实干家的系统工程重构正在发生。
从虚拟环境里的代码生成,到物理世界里的具身智能;从从零开始的绿地项目,到企业级“棕地”系统的深水区改造——当下最紧迫的命题是:龙虾热褪去之后,我们究竟需要什么样的Agent?
## 要点速览
关于护城河的转移:模型已经不再是竞争的绝对护城河。模型决定了Agent的下限,但确定性的工作流、交互协议、安全和治理体系,决定了Agent的上限和可落地的门槛。
关于真实开发场景:真正的挑战不在于从零开始的“绿地项目”,而是在现有的“棕地”系统上,如何靠谱地引入AI辅助修Bug、加需求,同时不破坏原有架构和功能。
关于通用与垂直之争:什么都想做的超级通用Agent,必然面临任务偏移、链路断裂和权限失控。更稳妥的形态,是在边界清晰的垂直Agent之上,再架设轻量的通用调度层。
关于评估体系的重构:判断一个Agent行不行,不能只看结果的“幸运通过”。必须追溯它的工具调用逻辑和执行过程——过程对了,结果才更容易对。
关于组织与人才的演进:如果还是按传统的角色分工,仅仅是每个人各自用AI提效,组织的整体效率几乎不会改变。AI时代真正稀缺的,是既深谙业务逻辑又懂AI工具链路的交叉型人才,以及善于利用这些复合型人才减少协作摩擦的领导。

## 告别尝鲜,走向深水区
OpenClaw这类产品化的Agent出来已经有几个月了,很多人可能只是尝个鲜。非专业开发者可能回到了AI聊天产品,专业开发者也可能回到了Claude Code。两位近期在实际工作中使用Agent的情况如何?
先看李明琦的情况。“龙虾”用得比较少,因为平时更多做深度研发。对于业内的人来说,小龙虾并没有那么惊艳——平时大家一直在做Agent的研发,它只是一个产品形态。但对于不太了解这个领域的人,突然有这样一个助手能快速解决通用的、简单的问题,那确实是一件好事。但对于做得比较深、比较垂直的业务,小龙虾很难满足需求。
近期主要的工作方向是Agent和机器人的操控——通过Agent去操控机器人。构建Agent,再构建一个Agent可以交互的虚拟环境,研究如何让Agent去做自进化,包括通过构建Benchmark数据集帮助它进化。这些偏深度的事情,相对较浅的小龙虾很难满足。
不过,最近接了一个人力资源项目,帮助HR部门做系统的升级与优化。他们的业务主要涉及人员盘点、绩效、奖励等,业务背景更偏向通识,使用工具也较浅层。所以在给他们搭建业务时,会用小龙虾帮他们搭建内容,让他们通过小龙虾去解决相对简单的问题——比如统计当前绩效好的人、筛选需要的人才。简单任务可以这么做,但太过深入的内容几乎就不去做了。
再看伍斌的经历。经历了三个阶段。
第一阶段是“小龙虾”刚爆火时,天天研究它,还去帮别人装。让人特别惊喜的是,小龙虾能连上手机的飞书APP——用飞书发语音命令,它就去搜新闻,或者做自动化的定时任务。这比以前在电脑上用要方便很多。
第二阶段,因为做AI辅助软件开发,关注的是“棕地”AI软件开发。什么叫棕地?就是在现有的软件系统上引入AI,帮助现有系统去修Bug、增加新需求。在AI的帮助下能够可靠地零手工编代码,让AI帮你修Bug、增功能。这不是从零开始的项目,而是棕地项目——相当于盖房子的那块地已经被翻开了、盖了一半,再拿AI进去介入。对应的“绿地”项目,就是一片地还没开垦。氛围编程一般适合绿地项目,但企业和个人开发者更关心的是:在现有系统之上怎么加入AI。
这个阶段又切回了Claude Code。因为小龙虾有一段时间Token用太多,被Claude封掉了不让用。而且搞棕地项目时,需要强一点的模型帮助分析架构,所以需要Claude这种大模型。
到第三阶段,发现最近出来了Hermes Agent。它的好处是根据你的工具调用(比如每十次调用),自动在后台优化你的Skill——相当于能越用越聪明。这一点比小龙虾强,小龙虾需要你手工主动让它做优化才能优化Skill。另外它还能连很多大模型,比如Claude,也能连Kimi模型。而且它通过CLI进到目录底下,所以现在偏向于使用Hermes Agent,在电脑上连上大模型去做开发工作。
现在不再用飞书连小龙虾了。用的是更硬核的方式:在iPhone手机上装一个叫Termius的终端工具连到电脑上,电脑上把Tmux跑起来。这样能手机发命令,看到电脑上运行的状态。电脑上干了一半,手机上也能看进度,还能切换不同的工具——OpenClaw、Claude Code、Hermes Agent都可以切。这就是现阶段的做法。

## 什么是真正的Agent?工作流、协议与安全
每年都有很多产品化的Agent涌现。比如Manus出来的时候,大家对Agent的想象还停留在“聊天框交互+工具调用”;今年龙虾又启发了很多人的思考——大家开始聊Agent的系统化、系统工程以及Harness Engineering。
那么,什么样的东西才算真正的Agent?它和前几年熟悉的Copilot、助手、Workflow,真正的分界线在哪?如果往现实世界更推一步——比如结合机器人和物理世界——什么能力会突然变得比聊天框时代重要得多?
从当下的观察来看,Agent下一阶段的竞争,模型之间的差异化正在变小。虽然仍有变化,但在Agent落地的全链路过程中,模型的影响力已经没那么大了。
核心判断是:模型已经不再是你竞争的护城河了。现在的壁垒在于——可落地的工作流、Agent的协议、安全和治理体系,整个链路显得更重要。模型已偏向同质化,虽然像Claude这样的模型可能还是比别的更好一些,但差距在不断缩小。
工作流和协议,才是Agent从“能跑”到“能干活”、进入真实业务必须要解决的关键问题。
第一,流程要更具确定性。比如一个客服Agent遇到不同问题应该走什么流程、调用哪些工具——这些是研发、产品和业务方需要清晰界定的,包括怎么和其他系统进行交互。这不能靠模型临场发挥,而是需要预定义的工作流。
第二,交互协议。Agent要和企业的系统、数据库等交互,需要建立一套规范统一的协议——权限协议、数据格式协议、回调机制。否则很容易出现调用失败、数据格式不兼容,甚至权限风险。像Agent去操作数据库,它需要申请授权,申请权限后,需要有人帮它确认才能往下走。这些不是靠模型优化能解决的,需要对业务的理解和工程化的沉淀。
第三,安全和治理能力。Agent目前涉及的链条比较多,安全性和治理能力非常重要,决定了Agent能不能进入核心业务。Agent是否足够安全?执行路径是否可追溯?经常遇到Agent出现幻觉,但下次再问时问题又无法复现。所以需要构建过程的Benchmark数据集,去评估它的执行过程是否会出问题,出了问题能不能追查到。
第四,隔离和回滚机制。Agent操作出了问题能不能回滚?会不会影响其他业务?如果这些问题不解决,模型能力再强,很多企业也不敢把核心业务直接交给Agent去做。
所以,模型决定了Agent的上限,但工作流、协议、安全和治理决定了Agent的下限和可落地的门槛——这才是核心竞争力的关键所在。
刚才提到的这些问题都很关键——相当于给模型套上一个结构、一个架子,或者直接叫Harness。现在有人管它叫约束,或者比作套马的马具——没有它你驾驭不了AI。
具体什么是Harness?应该分三大块。首先要明确的是,这里针对的用户对象不是做Agent的构建者(不是像做Claude Code的工程师),而是使用Claude Code去开发应用的人。
这些使用Claude Code的人,怎么样用好Harness?开发Agent的工程师有他们的Harness,叫Agent Builder Harness。而这里要说的Agent User Harness,是使用者自己的工具。
这个Harness包括三块。
第一块,要把协议、约束告诉它,包括企业中的隐性知识。这些知识以前可能写在代码里,或者在Confluence文档里,没有进入提示词。有一句话很关键:如果你的文档没有进入大模型的上下文,那等于不存在。所以需要想办法,把目前做的工作大模型必须要知道的内容给到它,做好准备工作。ThoughtWorks的一位首席工程师讲过一个词叫Feedforward(前馈)。熟悉的是Feedback(反馈),它在AI生成前,加了前馈——就是准备好提示词,把主要要点准备齐,不要遗漏重要内容。
第二块是Feedback(反馈)。模型运行完了,要看结果是否符合期望。可能需要写一些自动化测试,或者让大模型扫一下代码规范,看是否符合企业要求,然后把这些结果给到大模型。因为Agent能调工具,它现在缺的是反馈。给它反馈后,它看到自己出错了,再去调工具修改,这样就形成了一个闭环。
第三块是国内开发者特有的痛点——Token不自由。国外的Claude Opus、Claude Sonnet,国内很多人用不上,因为没有支付途径,人家也不让用。所以只能用国内偏弱一点的模型。而且国内模型现在也开始贵起来了,有些Token已经没有包月计划了,都是按Token计费。有这些制约,订阅时就要考虑成本,不能像以前用小龙虾那样瞎跑、反复返工去烧Token——那是烧不起的。所以需要考虑:如果这次大模型的配额触顶了,能不能换一个大模型,接着上一次中断的工作继续做?这就需要考虑记忆管理,记忆怎么跨大模型继续下去。
把这三块把握住,Agent就能用得很好。很多人说Agent给的内容不靠谱、有bug——但不妨先问问,前面说的那三块前馈、反馈、中间的记忆管理有没有做好?做好之后,再来评估大模型是否能满足需求。

## 通用与垂直之争:什么任务该交给Agent?
从工业或商业的系统视角看,一个Agent什么时候才算真正从Demo变成能上场的东西?特别是结合具身智能领域——刚起步的这个领域,做到什么程度才能真正落地?
说到具身智能,目前的探索还处于比较初期的阶段,发展没有那么快。它不像纯软件Agent已经有一些相对成熟的产品了。具身智能还缺少很多东西——首先在数据这块就非常有限。它不像自动驾驶可以无限去造数据,做机器人的数据量很少。所以需要想办法做仿真环境的模拟,模拟数据和轨迹,造很多轨迹数据去帮助机器人。
机器人和纯软件Agent有所不同。具身智能的大脑相当于用大模型,类似于Agent进行思考、决策、规划。但在它通过智能体做探索时,还要格外加很多东西。
首先,智能体要把自然语言交互转化为具体的指标或坐标系。你不可能直接跟机器人说“往前走一步”就能操控它——机器人更多是通过坐标系来移动的。所以需要一个把自然语言对话转成坐标的过程,通过坐标把信号给到机器人,它获取信号后再去移动。
对于机器人Agent来讲,短期内只是在有限的数据和探索路径里做了一些尝试。它不像对话Agent的环境那么简单。当软件跟硬件结合时,会有很多问题。机器人在移动时会有物理反馈——遇到风险、遮挡,这些都需要做很多思考。所以整个链路比纯软件复杂得多。
在做这类Agent时,包括做机器人,前期会偏向做边界清晰、确定性更强的Agent。把边界和确定性定好,这样的Agent更容易落地一点。
很多一线团队最近都在面临一个现实:真正能落地的往往不是前几年常说的“通用超级Agent”,而是一套边界清楚、步骤清楚、结果清楚的垂直领域Agent。这也引出了一个很具体的问题:哪些任务值得交给它,哪些任务不能交?现在的用户真正需要的,是一个什么都能做的Agent,还是先把一个关键任务做好的Agent?
这个问题非常好,相当于Agent该怎么设计或者怎么选。Agent其实由两部分组成:一部分是背后的大模型,另一部分是模型之外的一层Harness,两者结合做成了一个Agent。所以这两块需要一起来说。
根据经验,如果做棕地AI项目开发(在企业IT内部原有系统上引入Agent),可以分成两大类Agent。一类是能力强一点的Agent,比如Claude Code,后面连着Claude大模型。可以让它做架构分析、头脑风暴、读代码、出方案——比较复杂的事情用这个大模型。如果方案写好了,要动手去做的时候,就可以切换到国内的大模型,比如Qwen、Kimi或GLM。目前来说,它们都能把确定性的任务干好。还需要写好自动化测试,让它们看到反馈再去改。可以把这两块分开,各有侧重,不用让弱模型去搞复杂的事,也不用让强模型去干简单的事造成浪费。
以前的AI开发者讨论通用和垂直,现在搞Agent时,大家依然在争论通用和垂直——经历过两者,应该都有感受。
超级通用的Agent具有不确定性、高成本和难管控的特点。什么都想做的通用Agent,在真实业务里会遇到三个无法避免的问题。
第一点,任务一长容易偏移。因为是通用的,一会问这个话题,一会转到另一个话题,特别是在复杂多步骤的任务里,模型很容易偏离目标。比如做数据报表,中间可能调用错工具或理解错数据,导致结果偏差变大。
第二点,工具一多,链路容易断。通用Agent要适配不同的系统和工具,链路更复杂。任何一个环节出错都会导致任务失败,稳定性特别低。这是工作中经常遇到的,所以尽量把它限制得越可靠越好,否则不稳定会带来业务问题。
第三点,权限放开容易失控。通用Agent需要大量权限,但你不可能把所有权限都放开。一旦放开,就容易给企业带来数据泄露或误操作等安全风险。
相比之下,垂直确定性的Agent对公司来讲更好一点。它不是什么都能做,但在特定场景下更稳定可靠,能按照约束的规则完成任务。
首先,它边界清晰。比如做财务报销的Agent,或者专门做KUKA机器人咨询的Agent,会把边界限定得很清楚。其次,步骤具有确定性。比如客服工单Agent,遇到什么问题、走哪些流程、调用什么工具、回复什么话术,都提前预定义好,模型只负责执行,确定性更强。最后,结果更可控。任务结果是可以预期的,方便复盘,不会出现混乱,可以更放心地在核心业务里使用它。
所以未来的形态,是在垂直Agent之上再做一些轻量的通用调度层。不是说通用能力没用,而是它更多作为调度层,去协调多个垂直Agent。上层用通用调度层调度垂直Agent,而不是让单一的通用Agent去做所有的事——这样会更好一点。
Agent到底做到什么程度才能叫通用?在目前接手的系统里,什么样的任务天然更适合先交给Agent?什么样的任务必须先让人来兜底,或者一开始最不该先碰?
如果整个业务偏向于通用类,不是特别垂直的领域,用通用的Agent就可以解决。如果任务没有特别强的专业属性,也可以优先通用的。但之前做过医疗、金融这类垂直行业,深度内容理解还是需要垂直的Agent解决起来更好。像是通用财务知识的简单计算,优先用通用的就可以。
在开发流程中,AI实际上更适合扮演通用的“实习生”角色,还是明确分配一段工序让它去干好?
在软件开发领域,大家对通用和垂直有不同的理解。在使用过程中,通用的Agent更多使用Claude Code。现在不光用Claude Code写代码,还用它写自媒体文章,也是一把好手。它能去网上搜新闻,替代了搜索引擎,能帮忙搜东西、写会议纪要、写PPT大纲。从这个角度看,它就是一个通用的Agent。虽然Claude Code在编程领域很有名,但它刚出来时,很多非技术人群涌进来用它生成PPT。通用Agent的特点是能做很多事情,只要把前馈跟反馈做好,就能得到想要的结果。
关于垂直的Agent,取决于给它定义的角色。现在Harness有很多不同的实现方法。最近看到一篇论文,讲亚马逊的工程师怎么让Harness发挥好效果。他设计了一个框架,里面有两个角色(两个Agent):一个叫Builder,负责构建软件;另一个叫Reviewer,负责评审软件。这两个Agent相互制衡——一个人做完另一个人去审,审完提供反馈,前面的人再去改。各干各的角色去完成质量要求比较高的任务,需要这种提供反馈的Agent去做好垂直的事情。

## 评估与避坑:不只看结果,更要看执行过程
真到了具体的业务现场,Agent最容易卡住的地方,到底是当下的模型能力不够,还是吃不到有用的数据或业务信息?
最近遇到了几个Case。
首先,如果问题没太理解好,Agent会出现无休止的探索。所以要对它的探索进行约束,帮它找到最优路径。遇到的情况是它出现无限次探索,需要定义在什么情况下它应该执行结束,不应该再探索了。
第二个问题是,在探索过程中是按步骤执行的,有时候步骤会出现错乱。有些不该执行的步骤它执行了——这种情况怎么控制?这也是遇到的问题。
第三个问题是,Agent的澄清能力和拒识能力没那么强。问一些和垂直领域相关的问题,它答得挺好,但如果问得太发散,很容易诱导它答出别的内容。怎么给它做拒识、帮它更好地澄清,也是大问题。
目前发现的问题,主要还来源于怎么构建更好的自动化测试集和Benchmark,不断去测出Agent的问题。短期内发现了这几项问题,也在想新的技术方案去解决。
Agent出现问题往往不是因为模型不够强,而是任务一拉长、链路一变多,它就会无限制地探索,整个状态就慢慢飘了——这个问题很重要。
有的小伙伴不知道,两个不同的任务中间需要敲一个“/new”,新开一个Session,让上下文清空。有些人没这习惯,一股脑什么都放进去,后来就会越来越飘。
基于国内Token不自由的开发者场景,经常要换大模型——因为配额满了就得换。所以很在意这次会话到底让它干什么事,和上次会话有没有关联。如果没有关联,就敲一个“/new”新开Session,清空Context。
还有一个好的实践:去插件市场找一个能可视化当前上下文使用量的工具。比如Claude Code有个进度条,告诉你目前会话的Context用了百分之多少,今天的配额还剩多少,这周的配额还剩多少——一目了然。这样就很清楚,这次会话不要超过50%。超过50%之后就可能后面就会飘了,要想办法赶紧收尾或者换下一个话题。所以把任务拆得很碎,每个任务都能独立让它去做,不会依赖前面的内容。
前面讲到的Hermes Agent有个好处——它能自动压缩上下文。有些小伙伴不爱敲“/new”,Hermes提供了一个机制:上下文快满时会自动帮你压缩。当然压缩质量有好有坏,有时候可能会把重要的事压缩掉。所以还是得把握在自己手里,控制好输入的内容,让上下文能承载要让它做的事。这样能防止Agent飘,让它每次都很精准地回答问题。
接下来聊评估标准。大家现在越来越容易感受到一件事:有些Agent最后虽然把结果做出来了,中间却全靠侥幸和运气。
真正值得探讨的问题是:它不仅要成,还要“靠谱地成”,下一次还要能同样跑好这个任务。如果要判断一个Agent到底好不好用,先看什么?真正好用的AI Agent应该关注哪些指标?
Agent好不好用,在不同的业务领域,业务目标不同,评估也会有变化。举个例子,现在做的是通过对话方式操控机器人的交互。对当前Agent的评估,首先会看它在执行任务的过程——比较看重过程。
假如是一个机器人点动任务,需要执行哪个机械臂,要看它过程是不是对的:它有没有先获取权限?获取完权限后,有没有设置速度?然后再移动轴?会对工具调用和执行过程进行追溯。因为过程对了,结果才更容易对。所以首先看过程的满足,最后才看结果的满足。
会拆成两块:一块是评估执行过程,以及执行过程之后状态的变化——这是比较直接、关键的东西。另一块是回答问题的质量。在这个场景会分成这两块。内容方面包括质量、是否回答了当前问题、是否有一些引导和步骤解析。这是从内容角度制定的细粒度指标。所以当前主要关注这两部分:执行过程及状态变化,以及回答内容的质量。
虚拟环境里跑通和真实世界里可行,这中间最容易被忽略的差距是什么?
最容易忽略的是:虚拟环境仅仅只是模拟的真实环境。只能模拟特定的实体和核心功能,特别细微的东西很难模拟全。就像模拟一个人,只能把身体的大概部位做出来,毛细血管等细微的东西很难模拟。所以在模拟机器人场景和环境交互时,只能先把实体找出来,把实体之间的关系(类似于知识图谱)模拟出来,构建成一个环境系统。Agent就是跟这个虚拟环境交互去产生数据。
前期先构建简单的虚拟环境,随着业务丰富再不断添加。有了虚拟环境、Benchmark和Agent这三个东西后,它们就可以自动联动优化,越做越好。真实场景里没有太多真实数据,只能通过这三种方式让它朝着更好的方向自进化。发现环境问题去优化环境,发现Agent问题去优化Agent,发现Benchmark问题去丰富测试集。从这三个圈层一起优化,就会越来越好。
很多团队在把Agent接进业务时,最先要定清楚的可能是权限、责任以及组织之间的调度。如果AI已经进入研发流程,最先需要建立什么样的能力?
这是目前软件开发行业都在面临的一个很大的问题。AI什么都能干——需求分析、架构设计、概要设计、详细编码、测试、运维——它都能干。这个时候是不是还是按照原来的没有AI时的组织机制?还是那些角色?产品经理、业务分析人员、开发、测试、运维——这些角色是不是还像AI爆发前那样设置?
如果跨角色协作时,还是像以前那样等待的话,那几乎没有什么成效。因为在去年DORA的AI报告里已经看到了这个调查结果:组织感觉AI提效几乎感觉不到,个人程序员觉得提效个20%,但实际度量起来个人提效也就是10%左右。所以,组织机制如果没有做好引入AI后减少跨角色协作摩擦(比如一人身兼数职),业务不懂研发,研发不懂业务——那还是跟以前一样,没什么太大效果。
那什么样才能变得好呢?可以从OpenAI三个工程师五个月生成100万行代码、软件在组织内部几百人在用的场景中得到一些启发。什么意思?就是说这三个人可能会兼顾很多角色——一个人既是产品经理,又是开发人员,又是测试人员,还可能也干运维。相当于这三个人就把原先的四五个角色都做了,而且让AI帮他们零手写代码,全让AI生产代码。
这种角色的融合就是趋势。将来的业务和AI交叉的人才非常抢手——既懂业务又懂AI技术。有些人唱衰说初级程序员已经不需要了,那些新人该怎么办?其实新人不是傻瓜,他们也很聪明。可以在学校里面学一些传统行业的领域知识,同时辅修一些AI的工具。进企业之后就可以去填充缺口很大的业务跟技术交叉的人才——现在是非常非常缺的。如果有人看准了这个方向,这就是将来一个非常好的就业机会。

## 未来的机会属于模型厂商,还是产品公司?
今天很多Agent产品的Demo一眼看上去很惊艳。正所谓外行看热闹,内行看门道——看到这样的Demo,或者真正上手测试时,一般先看什么专业技术点?开始警惕通常是从哪个信号开始的?
如果让AI帮忙生成软件或代码,首先会让他做一个头脑风暴,做一些架构或方案的生成。比如生成三个方案,从中挑一个。一上来不会让他直接生成一个结果——那是去年写《氛围编程》那本书时的套路了。但到了棕地开发阶段,它能操作工具且有很多权限,就不能放任自流让它去干活了,需要小步让它去做。通过一小步就能看出来它是不是做得好。
判断它是不是“金玉其外败絮其中”,经验是看每一步的检查点,定义好怎么去验收。比如架构分析,它应该给出一个能看懂的架构图——这是最基本的,如果出不来就走不下去。所以观点是:先想好怎么验收任务,定义好之后再让它去做,做完看是否符合期望。
在机器人领域也经常会看到很棒的演示视频。外行看这些机器人各有各的酷炫之处,内行是怎么看的?
内行看机器人的话,像宇树科技的机器人可能更多是跳舞类的。现在做机器人主要是智能家居类——比如在厨房拿东西、炒菜,还有叠衣服的机器人。整体来讲,它还是挺笨的。每天要去反反复复地测、收集数据,每天用机械臂一点点叠衣服去收集数据。整体进化没有那么快,至少在家居领域还没有跑得那么好。
它不像纯智能体——智能体整体可以偏向很强的自动化。它写出来的东西,如果不仔细看,整体逻辑上看不出问题,特别是实现一个很小的业务功能点时,几乎没问题。但区别在于,当你做一个企业级项目、实现复杂功能点时,它写的代码就没那么好了——很难写出高内聚、低耦合的企业级代码。所以在做大项目时,通常先把复杂任务拆解,让它先写需求文档或设计文档。然后在文档基础上去评估哪里不足、哪里需要补充、该用什么框架逻辑,给它更细粒度的指令。需求文档改得没问题后,再让它生成代码。生成完后还是需要人工做质检,否则会有问题。
对于程序员和研发人员来讲,更多的精力不在于写代码,而在于审核AI给出的东西是不是靠谱。它可能完成80%,在80%的基础上去帮它完善,激发它达到90%甚至更高的靠谱率,再让它进一步落地。也在帮助其他团队更好使用AI提效——大家是相互合作、共同进步的过程。整个工作范式和工作内容的重心发生了迁移和变化,有了新的视角。这让做的事变得更新鲜,不像以前做研发的只做研发,现在有了角色的变化。
下一阶段的Agent,大家都在争什么?是单点能力,还是整个生态的位置?未来的机会,更属于模型公司,还是属于更懂场景的产品公司?
过去大模型刚火那一波,出现了很多产品公司,但随着模型能力的迭代(比如OpenAI去年Image-4o的图像生成能力升级,还有今年的Claude Design和OpenAI的Image-2),很多产品公司受到了降维打击。现在模型公司和产品公司似乎处于一个非常微妙的态势。
技术做得好不好,通过产品形态去展示是非常合理的。就像苹果,大家觉得它体验好,自然觉得它的技术好。技术再好,如果没有好的产品,就看不到真实的价值。所以技术是需要产品去承载的。技术要嵌在产品里,产品尽可能满足用户痛点,大家才愿意付费。经常讲:产品做得好不好,用户愿意付费的产品就是值得用的。
看过很多研发人员技术能力很强,一两个月就能把产品上线。但如果没有把握住用户需求,又不会运营,可能就没人用了。所以大家做技术、做产品时,要看是否捕捉到了市场和用户的痛点,填补了哪块市场空白,而这块空白又是用户非常需要的。这样的产品更容易脱颖而出,否则很多产品会死在实验室里。要多做能让用户或企业快速用起来的东西。这是一个需要反馈的过程——技术和产品做得好,都需要用户和企业的反馈。只有有人用,不断提供反馈信息,才能形成闭环转起来。整个生态链少一环,都很难完整转起来。
未来还会不断有小的产品出来,因为现在做一个产品的成本已经没那么高了。可能会经常出现一些小的爆品,满足特定用户的需求。做产品的成本不高,但带来的价值还是挺大的。
有些大模型厂商把单点做得很惊艳让大家去用——这一点都不担心,因为只是单点,没有解决日常生活的痛点。比方说为什么Manus没火而是OpenClaw火了?
有一个很重要的点,使用Manus需要把资料上传,要让它生成PPT,要把素材上传——这很麻烦。但OpenClaw是默认安装在电脑本机的。里头就有你的文件,只需告诉OpenClaw,说电脑里的这个文件需要转写成另外一种PPT。这样就不需要反复繁琐上传文件,相当于你的数据就是你自己的。但如果把数据上传到Manus,这东西归Manus了——将来是否安全,这是个问题。所以产品懂人的心理非常重要。
包括刚才说到国内Token不自由的开发者的痛点——现在没看到国内厂商专注做这个事情。如果有些厂商发现这些痛点,做一些解决痛点的事情,比如切换模型、自动路由到恰好够用的模型——这也是一个非常好的产品,很多人愿意用。
Agent这个词大家已经说了很久,但真正值得聊的部分可能今天才刚刚开始。很多人今年才开始大规模使用Agent,一开始还是用Chatbot的方式对待它,关注它的模型能力。但当它真正落地时,不得不问:它能不能更稳、更可控?能不能真的进系统、带来结果?
Agent的下一阶段拼的未必是“更像人”或者模型本身的能力,而是系统工程能力。