谷歌180组实验揭示Scaling Law,颠覆传统模型炼金术

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
机器之心报道
编辑:Panda
智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。
尽管其已被广泛采用,但决定其性能的原则仍未被充分探索,导致从业者只能依赖启发式经验,而非有原理依托的设计选择。
现在,谷歌的一篇新论文填补了这一空白!
他们通过大量实验找到了智能体的 Scaling Law,只不过他们将其称为quantitative scaling principles,即定量扩展原则。

论文标题:Towards a Science of Scaling Agent Systems论文地址:https://arxiv.org/abs/2512.08296
具体来说,他们将这种扩展定义为智能体数量、协作结构、模型能力和任务属性之间的相互作用。
他们在四个不同的基准测试中对此进行了评估:Finance-Agent(金融推理)、BrowseComp-Plus(网络导航)、PlanCraft(游戏规划)和 Workbench(工作流执行)。

利用五种典型的智能体架构(单智能体系统以及四种多智能体系统:独立型、中心化、去中心化、混合型),并在三个 LLM 家族(OpenAI, Google, Anthropic)中进行实例化,谷歌这个团队对 180 种配置进行了受控评估,标准化了工具、提示结构和 token 预算,以将架构效应从实施混杂因素中隔离出来。

他们使用经验性的协作指标(包括效率、开销、错误放大和冗余)推导出了一个预测模型,该模型实现了交叉验证 R²=0.513,通过对任务属性建模而非过度拟合特定数据集,实现了对未见任务领域的预测。
是的,智能体的 Scaling Law 找到了!并且准确度还相当高,谷歌表示:「我们的框架在预测保留任务的最佳架构方面实现了 87% 的准确率。」这样一来,智能体的部署决策将第一次获得强有力的原则支撑。

实验与结果:打破「人多力量大」的迷思
为了找到这套定量原则,谷歌团队没有仅仅停留在理论推导,而是进行了一场堪称暴力穷举的实证研究。
他们动用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、网购、游戏规划等不同场景下进行了 180 组受控实验。
实验结果不仅令人意外,甚至颠覆了许多开发者的直觉。简单来说,他们发现了一些规律。
任务决定成败:有的场景是神助攻,有的是猪队友
过去人们常说「三个臭皮匠,顶个诸葛亮」,但这篇论文告诉我们:这完全取决于你们在干什么任务。

红榜(适合组团): 在金融分析(Finance-Agent)这类任务中,多智能体协作是大杀器。中心化架构(有一个「指挥官」分派任务)能让性能暴涨 80.9%。为什么?因为这类任务可以拆分 —— 你查财报,我算汇率,他做总结,大家并行工作,效率极高。
黑榜(切忌组团): 在游戏规划(PlanCraft)这类任务中,所有多智能体架构都翻车了,性能惨跌 39% 到 70%。原因在于这类任务环环相扣(必须先砍树,才能做木板),强行把流程拆给不同的人,光是沟通成本就把推理能力消耗殆尽了。
三大隐形杀手:什么在阻碍智能体变强?
通过对数据的深度挖掘,谷歌团队量化了阻碍智能体扩展的三大核心因素:
第一,工具越多,协作越难(工具-协作权衡)
如果任务需要用到大量工具(比如 16 个以上的 API),再引入多智能体协作就是一场灾难。实验数据显示,工具密集的任务会因巨大的沟通开销而不仅没变快,反而变慢、变笨。
第二,能力有天花板(能力饱和效应)
这是最反直觉的一点:如果单个智能体已经够聪明了,就别再给它找帮手了。 数据表明,当单智能体的基线准确率超过 45% 时,再增加智能体进行协作,收益往往是负的。所谓「帮倒忙」,在 AI 世界里是真实存在的。
第三,没有指挥官,错误会指数级放大
如果你让一群智能体各自为战(独立型架构),错误会被放大 17.2 倍 —— 因为没人检查,一个人的错会传给所有人。但如果引入一个「指挥官」进行中心化管理,错误放大率能被控制在 4.4 倍。这证明了在多智能体系统中,架构设计比单纯堆人数更重要。
模型性格测试:谁是最佳指挥官?
除了任务和架构,论文还发现了一个有趣的现象:不同厂商的模型有不同的协作性格。在选择团队成员时,你不能只看智商(IQ),还要看它们合不合群。
Google Gemini:擅长「层级管理」的执行官。Gemini 模型在中心化架构下表现出了惊人的适应性。在金融任务中,Gemini 的中心化协作带来了 +164.3% 的恐怖提升。数据表明,它最听指挥,执行力最强,且在不同架构下的性价比最为平衡。
OpenAI GPT:擅长「复杂沟通」的交际花。GPT 系列在混合型架构(Hybrid)中表现最佳 。虽然混合架构的沟通成本很高,但 GPT 似乎拥有独特的「通信协同效应」(Communication Synergy),能驾驭复杂的交互网络,不仅能听指挥,还能搞定同级之间的横向沟通 。
Anthropic Claude:稳健但敏感的保守派。Claude 对协作开销非常敏感,一旦沟通太复杂,成本就会飙升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最适合简单直接的中心化架构,表现最稳(方差最小)。更有趣的是,它是唯一一个在「弱指挥官带强兵」(异构混合)模式下还能提升性能的模型,展现出了独特的容错性

结果:这就是我们要找的「预测公式」
最终,基于上述发现,谷歌推导出了一个预测模型。这个模型不依赖玄学,而是基于效率、开销、错误放大率等硬指标。


它的威力如何?在预测完全没见过的任务配置时,这套理论能以 87% 的准确率告诉你:对于当前的任务和模型,到底该用单打独斗,还是团队协作,亦或是某种特定的组队方式。
这标志着智能体系统设计正式告别了「炼金术」时代,进入了可计算、可预测的「化学」时代。
更多详情请访问原论文。
相关攻略
这项由香港科技大学、京东探索研究院和香港大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 17051v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。制作一段
当我们开车在高速公路上行驶时,最怕遇到的就是车子突然失控,方向盘变得异常敏感,稍微一动就可能冲出车道。这种情况在人工智能的训练过程中也经常发生,特别是在训练那些能够进行推理和对话的大型语言模型时。来
这项由Stony Brook大学研究团队开展的前沿研究发表于2026年3月,论文编号为arXiv:2603 19209v1,为我们重新审视视觉语言模型的设计理念提供了全新视角。当我们谈到让计算机同时
面对火星制氧催化剂研发中高达376万种的潜在配方组合,以人工方式一一试验2000年也难以穷尽筛选。“小来”通过自主阅读分析5万篇论文,融合实验与理论计算数据,用6周便找到了最优解 应通过政策引
人民网北京3月30日电 (记者赵竹青)当高端科学仪器被AI赋能,会发生什么?3月27日,2026中关村论坛年会AI for Science(人工智能赋能科学研究)青年论坛上发布的我国首套智能双束电镜
热门专题
热门推荐
目录 1 从冷门到日均 $2M 的独立赛道 2 这其实是一个短期期权市场 3 极致的精准博弈:为何 0 79% 的价差里藏着大机会? 4 抓住订单簿里的僵尸红利 5 大神模板:拆解 VibeTrader 的包围网打法 6 交易者实操指南:如何寻找你的 Edge? 本文导读 Polymar
别再瞎选 GEO 工具了!2026 年这 4 款软件亲测好用 投入大把预算做营销,结果客户在AI里一搜,发现的全是对手的信息——这种尴尬,不少品牌都遇到过吧?根据《GEO全域流量协同打造品牌增长超级引擎》白皮书,GEO作为优化AI模型答案的关键策略,眼下正成为驱动品牌增长的超级引擎。那么,市面上哪些
敦煌网究竟怎么样?深度解析这个跨境电商平台的真实面貌 谈到中国跨境电商,敦煌网绝对是一个绕不开的名字。它高频出现在各种出海讨论中,但伴随的疑问也不少:这个平台到底靠不靠谱?为买卖双方带来了什么价值?今天,我们就抛开笼统的宣传,从几个关键维度,把敦煌网的里里外外梳理清楚。 平台优势:不止于“大而全”
擒贼先擒王:《军团再临Remix》关键任务实战解析 在《魔兽世界:军团再临Remix》中,“擒贼擒王”算得上是一个标志性的挑战。它不仅考验玩家个人的战斗技巧,更是一场对团队协作与战术理解的综合测试。想要在这场狩猎中取胜,拿到丰厚的经验、金币和装备奖励,有些门道你得先摸清楚。 魔兽世界军团再临remi
潜力与体验升级下的商业转型样本 实体商业的客流焦虑,早已不是什么新鲜话题。但就在这片略显沉寂的土壤上,一个意想不到的“客流发动机”正在轰鸣运转——专业室内真人CS品牌镭战大联盟(GLSA)。你或许很难想象,周末早晨十点,在上海五角场万达广场的店里,已经能看到家长带着孩子在前台排队。门店教官的反馈更直





