游乐游手机版
首页/AI热点日报/热点详情

构建多Agent平台的探索与愿景全记录

类型:热点整理2026-06-29
该多Agent平台旨在让Agent执行具体工作任务而非单纯聊天,支持多Agent协同与人工审核,全链路融入业务场景,通过持续知识积累实现业务超自动化,与Dify、FastGPT等产品的设计理念存在根本差异。

先抛几个核心判断。最近经常有人问起,这个平台和Dify、FastGPT这类产品到底有什么不同?确实,市面上主流的开源Agent平台,像CrewAI那一类,各有各的设计思路。我们目前在维护的开源多Agent平台,虽然表面上看起来和它们有交集,但底层逻辑完全不一样。

很多人在聊Agent的时候,容易把它等同于一个智能聊天机器人。但在我理解里,Agent的价值远不止于此——它应该是能承担具体工作任务的“工作台”,而不是一个空有对话窗口的“聊天框”。这也正是为什么要从零开始搭建一个自己的Agent平台,而不是直接拿现成的Dify或FastGPT来用。以下几点,是设计之初就定下的核心场景:

  • Agent的存在是为了协助或直接承担工作,需要围绕多维度的AI助手来构建,而非单一对话形态;
  • Agent之间必须能够相互交互,涉及的关键环节可以有人工审核,这样才有可能真正切入生产业务;
  • 必须与现有业务场景形成闭环——从数据、工具、业务到推理,全链路贯通,业务高度定制化;
  • 通过持续的积累,最终形成某个业务场景的“自动驾驶”能力,实现业务的超自动化。

这些定位,注定会和Dify、FastGPT等产品产生比较大的设计差异。虽然在某些功能模块上看起来相似,但整体思路和设计目标完全不在同一个维度上。每个产品有自己的定位和取舍,这里不做高下评判,只说差异。

差异阐述

用一句话概括我所理解的Agent:它应该是能真实嵌入工作和生活方方面面的,而不是一个纯粹的聊天盒子。当然,现阶段很多场景可能只能做到后者。你可以想象一下未来的场景——家庭里有一个管家型Agent打理一切;工作中,则是一个工作管家,根据你的状态和任务来推进事务。目前AI的能力还达不到这个水平,那就退一步:用多个Agent来协作。下面我们从上往下逐一说明,差异点在哪里。

1. 多个Agent来协助我的工作

现在市面上已经有一些现成的平台,可以让你定义多个Agent角色,然后通过ReAct或者Flow这类机制,或是一些特定场景的插件(比如Cursor)来形成自动化能力。它们确实能分担一部分工作,形成所谓的“Agent团队”。

拿写文案举例子。让一个Agent出初稿,另一个做市场分析,再来一个做代码编写——你会发现手头积累的Prompt会越来越多,但这个过程中效能提升是实打实的。熟练使用之后,不论个人还是团队,都能明显感受到生产力的跃升。可以直接通过聊天窗口调用Agent角色完成任务,再进一步把自动化流程接进来,链条就更完整了。

2. Agent之间可以交互

当Agent角色多到一定程度,问题就会浮现出来:角色之间有重复的劳动,有些地方需要协作;另一个问题是结果不够准确,需要引入人工审批和确认环节。这时候你会希望,Agent之间能够进一步交互起来,类似于Swarm提出的Handoffs机制——任务和上下文能在不同Agent之间顺畅流转。但也不能流得太随意,因为很多时候需要把任务交接到指定的角色,中间还夹杂着审批和修改需求。如果能和现有的工作流融合在一起,那就更理想了。

常见的同类产品在这一环节往往很难实现,或者实现起来很别扭,因为它们的设计初衷就不是为了解决这个问题。我们的处理思路很直接:把多个Agent拉入同一个工作频道,共享上下文,同时允许它们相互交互。这种模式下,还需要针对业务场景开发工具或API接口,给每个Agent预留对话、审批、执行三大接口,以便根据需求灵活定制。比如文案编写这个场景,可以让Agent写初稿,然后内容重写、扩写等环节,由同一Agent或者另一个Agent接力完成,整个过程高度自定义,业务结合的灵活度一下就上来了。

3. 需要感知业务环境推理执行

环境感知和执行能力,是Agent真正发挥作用的核心所在。早些年讨论“城市大脑”的时候,需要海量的感知数据和触点采集,交给模型作推理,最后生成的结果供人参考执行。城市大脑和小脑的方法论在业务场景上其实非常全面。现在有了LLM,推理能力相比传统AI模型已经有了质的飞跃,完全可以作为各个场景下的“大脑推理模块”。

顺着这个思路,如果我们给每个具体的业务场景都配上这样一个“大脑”——就像给每个行业业务场景配备一个“贾维斯”(钢铁侠的AI管家)——这个业务场景的运转方式可能会被彻底改变。实现这个推理大脑套件,参考城市大脑的设计思路做了轻量化的版本,统一称之为“工作区”:从业务的数据感知,到推理,再到工具执行,形成一个完整的套件。

这个套件是模块化的,非强耦合。大模型在这里扮演的核心角色是推理能力,协调各业务线的运转。随着像o1这类推理能力更强模型的出现,大模型的能力本身也在不断提升,未来业务场景因为AI的进化只会越来越智能。这是可以期待的。

4. 形成业务超自动化

这更像是一个愿景,但实现路径已经比较清晰。当Agent能力深度嵌入到业务场景后,它会不断地学习——如果能够与LLM DevOps体系结合,这个过程会更加有系统化。随着业务数据和推理能力的成熟,每个业务场景的自动化和智能化水平会逐渐逼近一个最优点。Agent在这个场景中的数量和角色也会稳定在一个最合理的范围,最终形成一套Agent团队来支撑业务持续运转。

到了这个阶段,基本上就达到了所谓超自动化的水平。换一个概念来描述,可能更接近人们常说的AGI——虽然这个词我个人不太喜欢,但从概念上讲,用它来解释这个场景确实很贴切。这是一个愿景,也是一个非常明确的方向。当前AI推理能力在不断增强,业务场景在不断被切入,这条路径会越来越清晰。类比汽车行业的L4级别自动驾驶发展历程,在业务场景里实现类似的自动化,成本要比造一辆自动驾驶汽车低得多,开发的路线图也更明确。这才是最让人兴奋的地方。

来源:https://www.53ai.com/news/MultimodalLargeModel/2025011776452.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。