谷歌MIT深度解析：首个人工智能扩展法则出炉，模型性能提升关键

首页/科技数码/文章详情

谷歌MIT深度解析：首个人工智能扩展法则出炉，模型性能提升关键

时间：2025-12-12 11:09

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新AI圈里一直流传着一句信条：“More agents is all you need”（智能体越多越好）。大家的直觉很简单：一个诸葛亮不

点击关注+点亮星标⭐，不错过每日最新动态

AI领域一直流传着一句话：“More agents is all you need”。大家的想法很简单：一个诸葛亮不够，那就请三个臭皮匠来凑。甚至有人认为，只要我把一堆AI拉进一个群，让它们互相讨论、投票，无论什么任务都能做得更好

但现在，Google Research、DeepMind联合MIT的一项重磅研究，给这个想法泼了一盆冷水

论文链接：

https://arxiv.org/pdf/2512.08296

他们进行了一场史上最严苛的压力测试，结果发现了一个反直觉的真相：

盲目组建AI团队，非但不能提升能力，甚至可能把原本聪明的模型搞成“人工智障”，性能暴跌70%。

为此，研究团队总结出了一套 “智能体Scaling Law”，这是第一套能帮你算清楚“到底该单干还是群殴”的数学公式

为了搞清AI协作的真相，研究人员没有只测一种模型，而是把市面上最强的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂台

他们设计了180种不同的配置，不仅有单打独斗的（单智能体），还有四种不同的“组队模式”：

1.各自为战：大家各干各的，最后凑一起。
2.中心化指挥：有个“经理”负责分派任务和检查。
3.去中心化讨论：大家围成一圈开会，互相辩论。
4.混合模式：既有经理，底下人也能私聊

为了公平，不管是单人还是团队，手里能花的钱（Token预算）和能用的工具都是一样的

测试结果出来后，呈现出了极端的两极分化，就像两个平行宇宙。

宇宙一：人多力量大

在金融分析（Finance-Agent）这类任务里，多智能体简直杀疯了

因为金融任务可以拆得非常细，比如A查财报，B看K线，C做风控，最后汇总。在这种场景下，找个“经理”来指挥（中心化架构），性能直接比单干提升了80.9%

宇宙二：人多即地狱

但在“规划任务”（PlanCraft，比如在Minecraft里合成物品）里，情况完全失控

这类任务讲究逻辑的连贯性：你得先砍树，才能做木板，再做工作台。步骤环环相扣

结果研究发现，只要引入协作，所有多智能体架构全部崩盘
因为大家七嘴八舌地讨论打断了推理的连贯性，把宝贵的计算资源都浪费在了沟通上。比起单干，性能最高暴跌了70%

还有个中间派：

模拟真实职场打工（Workbench）的任务，结果显示，这就属于费力不讨好。折腾半天组建团队，最好的结果也就提升了5.7%，甚至有的架构还倒退了

为什么会出现这种差异？研究团队通过那套Scaling Law公式，像法医一样解剖了背后的原因，找到了三条铁律：

铁律1：工具越重，开会越废（工具-协作权衡）

想象一下，如果一个工匠要用16种不同的锤子和锯子干活

单干时，他拿起工具就干。但如果是个团队，每换个工具都要跟队友确认、同步信息

数据显示，任务需要的工具越多，协作带来的内耗就越严重。在这种“重工具”场景下，把资源花在沟通上简直是浪费，不如留给单人自己去思考

铁律2：高手不需要队友（能力饱和）

研究划定了一条残酷的“红线”：45%。

如果一个单智能体自己做这道题的准确率已经超过了45%，那么给它加队友往往是负收益

就像学霸做题，自己能得90分。非要给他配几个60分的队友在边上指指点点，最后成绩反而会被拉低。

铁律3：没经理的团队是灾难（错误放大）

这是最吓人的数据

如果你让一群AI各自跑结果（独立架构），却没人负责检查，错误率会被放大17.2倍！

因为一个AI犯了错，没纠正，另一个AI接着错，最后错上加错

只有引入“中心化”的经理角色，强制进行检查验证，才能把错误控制住（只放大4.4倍）

结论：算好这笔账

这项研究最大的贡献，就是告诉大家：别迷信人海战术了

Google和MIT把这些发现浓缩成了一个预测模型。现在，只要你输入三个数据：

1. 模型本身聪不聪明？

2. 任务要用多少工具？

3. 这任务能不能拆解？

这个公式就能以87%的准确率告诉你：该单干，还是该组队

简单来说，这就是一本AI算力经济学：在预算有限的情况下，把算力花在让一个大脑深思熟虑上，往往比让一群大脑开会吵架更划算——除非，你真的有一个好经理和容易拆分的任务

--end--

最后记得⭐我，每天在更新：欢迎点赞转发推荐评论，别忘了关注我

来源：https://www.163.com/dy/article/KGHKPE8V05566VQ3.html

宇宙智能体 law agent 正式版模型 scaling 谷歌mit联手

上一篇Meta收购可穿戴AI设备商Limitless 下一篇零跑汽车创始人再增持，港股投资超10亿港元显信心

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。