两年多前,OpenAI扔出的那个ChatGPT,一下子把大语言模型(LLM)推到了聚光灯下,全球为之侧目。
紧接着,各路科技巨头纷纷在次年亮出了自家的大模型,初创公司更是像雨后春笋一样冒出来,热闹非凡。
但眼尖的人会发现,从去年3月GPT-4惊艳亮相之后,LLM的迭代步伐好像就踩了刹车。
大家翘首以盼、传说中碘伏性的GPT-5迟迟不见踪影;与此同时,开源模型与闭源模型之间的性能差距,正在以肉眼可见的速度缩小。
曾经,在GPT-4发布那会儿,通用人工智能(AGI)仿佛触手可及。但这两年里,LLM时不时冒出的幻觉、推理逻辑上的“掉链子”,还有模型性能的衰退,让那个目标又变得遥不可及。
那么,下一站到底在哪?
今年9月下旬,谷歌和OpenAI相继放出的一波招聘信息,或许已经给出了答案:多智能体系统(Multi-Agent Systems,MAS),很可能就是AI发展的下一步。
多智能体研究团队招募进行中
9月20日,OpenAI的研究员Noam Brown在X上发帖,说他们正在为一个新的多智能体研究团队招兵买马,候选人最好有丰富的LLM工程经验。

这个动作,恰好对应了OpenAI自己提出的衡量AGI进展的五级标准中的第三级——AI智能体。
目前,OpenAI认为自己正处在第二级“推理者”的门槛上。最近推出的o1模型,就是这个阶段的代表作。
据《The Information》报道,OpenAI私下里一直在开发两种类型的AI智能体,目标是实现复杂任务的自动化:一种专注于操控设备,比如在文档之间搬运数据、完成报销报告;另一种则专攻基于网络的任务,比如收集公开信息或预订航班。
无独有偶,9月23日,谷歌也放出了多智能体相关的招聘信息。

其实早在今年五月,谷歌DeepMind的CEO Demis Hassabis在接受彭博社采访时,就直言AI发展的下一步是开发能自主行动的智能体。这些智能体不仅要能回答问题,还得能独立规划和行动。按照他的判断,这类系统有望在未来一到两年内投入实际使用。
多智能体系统
多智能体系统是当前AI研究的核心课题之一。
简单来说,它由多个互相交互的智能体组成。这些智能体是能感知环境、学习模型、做决策并采取行动的自主实体,可以是软件程序、机器人、无人机、传感器,甚至人类,或者它们的各种组合。
更关键的是,每个智能体都有自己的专长和目标。比如,你可以构建一个系统,里面包含分别擅长总结、翻译和内容生成的独立智能体。然后,这些智能体可以协同工作,共享信息,并以灵活可定制的方式分工合作。

和GPT这类单体大模型相比,多智能体系统有几个很明显的优势:
专门化: 智能体可以针对特定任务进行深度优化,而不是试图把所有能力塞进一个模型里。这带来的自然是更高的效率、更强的针对性,以及更好的性能。
定制化: 用户能按需灵活组合不同的智能体。不同的使用场景,可以搭配不同的智能体团队,就像搭积木一样。
可扩展性: 单个智能体可以独立更新或替换,完全不用把整个模型推倒重来。这让系统的迭代和改进变得非常可行。
可解释性: 当系统由多个智能体构成时,更容易看清不同组件对整个系统行为的影响。相比之下,单体模型通常是个“黑箱”,很难搞懂内部逻辑。
落到实际应用里,这些优势会更加突出:
灵活性与扩展能力: 多智能体系统可以通过增加、移除或修改单个智能体,灵活地适应环境变化。面对复杂问题时,它的扩展能力是传统方法没法比的。
鲁棒性与可靠性: 由于控制是去中心化的,即使某些组件出了问题,系统依然能继续运转。这种容错能力,是单体系统很难具备的。
自组织与协调: 智能体可以基于“涌现行为规则”自行组织,实现分工协作、协调决策甚至解决冲突。所谓“涌现行为规则”,就是通过个体间简单的互动,最终产生出复杂的整体行为。
实时操作: 不需要人类盯着,系统就能对环境变化做出即时响应。这在灾害救援、交通优化等场景下,价值巨大。
以前,多智能体系统的发展总是受限于智能体本身的复杂性、通信的不安全,以及协调的困难。但如今,随着现代AI解锁了更智能、更自适应、更可扩展的实现方式,这些系统在构建响应迅速且富有弹性的系统中,正在扮演越来越重要的角色。
未来的应用场景会非常广泛:从通过集成交通打造更智能的城市,到利用分布式发电和存储实现更清洁的能源,再到借助患者数据实现精准医疗,无一不需要它的支撑。

可以说,AI多智能体系统为这些构想提供了从理论走向大规模实际应用的计算基础,也为解决各行业中的复杂现实问题,打开了新的思路。随着分布式智能越来越像自然生态系统那样运作,AI多智能体系统必将成为打造一个更高效、响应更快、更具弹性的未来世界的核心基石。
