从大语言模型(LLM)横空出世到现在,整个行业像按了快进键,一步步向着更复杂的AI Agent迈进——这些Agent被设计用来模拟人类的数字交互行为。但理想很丰满,现实却有点骨感:商业化的落地并没有想象中那么顺利。如今,大家的目光正悄悄从AI Agent转向了Agentic Workflow(智能工作流)和数据合成。
问题来了:为什么风向转得这么快?
Agent:技术还不成熟,商业化遇阻
坦白说,不少公司曾经对AI Agent寄予厚望,砸进大量资源搞研发。可现实让人清醒——AI Agent的技术距离大规模商用,还有不小的距离。
如果你经常刷到那些AI Agent的酷炫Demo,可能会觉得它们无所不能。但抛开营销噱头和精心设计的原型展示,实际表现常常令人摇头。就拿Claude AI Agent Computer Interface(ACI)来说,它的性能居然只有人类的14%。这是个什么概念?简单直白地讲,闭着眼睛瞎猜都比用它靠谱。

来自TheAgentFactory的数据清楚地展示了当前AI Agent在成本、步数和成功率上的表现。成功概率只有20%上下,成本和复杂程度却居高不下。
最近OpenAI推出的Operator,在计算机操作和浏览器使用方面的准确率提升到了30%-50%,但这个数字依然低于人类70%以上的基准线。
还有一层隐患绕不过去:安全。AI Agent在浏览网页时,特别容易受到恶意弹窗的攻击。这意味着在实际应用中,风险系数并不低。
目前,AI Agent执行任务主要有两条路径:一种是通过浏览器(比如Webvoyager、OpenAI Operator等),另一种是直接操作操作系统的图形界面(比如Anthropic的做法)。两种方式的本质,都是把GUI当作API来用。早期也有人尝试过为每个应用单独开发API,但开发成本太夸张,而且很多商业应用根本没有现成的API可用,这条路基本走不通。
聚焦于Agentic Workflow
当然,AI Agent碰了壁,不代表整个行业就原地踏步了。相反,越来越多的企业开始盯上另一个方向——Agentic Workflow(智能工作流)。
知识工作者的效率问题早已不是新鲜事。有报告指出,大家平均会把30%的工作时间花在找信息上。更别提遇到复杂问题时,还得从好几个文档里翻来翻去、整合信息,难度可想而知。
Agentic Workflow正是为这些问题而生的。它把复杂的任务拆分成简单的子任务,再把这些子任务像串珠子一样连成一个流程。
这么做的好处不止是效率提升,更在于可解释性和可检查性。简单来说,用户能清清楚楚地看到每一步是怎么走的,对最终结果也更容易理解和信任。
同时,随着数据量像雪崩一样增长,如何把这些数据有效整合利用,成了一个关键挑战。Agentic Workflow在这方面很拿手,它能帮知识工作者快速合成所需信息,直接生成针对具体场景的答案。
举个例子,ChatGPT的Deep Research功能就是很好的代表。它可以在短时间内完成多步研究,搞定那些原本需要人花好几个小时才能做完的任务。
这里不得不提一个正在升温的概念——Agentic RAG(由LlamaIndex提出)。它的核心思想是:在某个时间点,为“单个受众”提供定制化的数据合成服务。可以预见,未来几个月,个人化的工作流、信息合成以及桌面编排,会变成热门赛道。
推理与问题解决能力的提升
现代AI模型正逐步把推理作为核心能力之一。它们能自动把复杂问题拆解成小块,然后系统性地逐一处理。
这种思路不仅提升了解决问题的效率,也增强了透明度——用户更容易弄明白结论是怎么得出来的。
过去,人们需要在提示词里手动加入推理逻辑,手把手教模型怎么拆解复杂任务;而现在,AI已经具备了一定程度的自主推理能力,使用门槛大大降低。
总结
最后想说的是,无论RAG、Prompt Engineering还是其他什么工具,企业都不该盲目追风口。回归到解决真实业务问题的本质,才是正路。技术的价值从来不是看它有多新、多炫,而是看它能不能实打实地创造效益。
不管是改善客户体验、优化运营流程,还是应对社会需求,都应该问自己一个问题:技术到底能不能提供有意义的解决方案?
只有想清楚这一点,企业才可能在未来保持竞争力,不被快速迭代的技术浪潮甩在身后。
