AI共识新突破:推理延迟激降20倍,Token消耗锐减4.4倍

新智元报道
编辑:LRST
【新智元导读】多智能体AI系统需要明确的共识机制来协调不同AI主体的决策。新理论框架将多智能体推理建模为分布式共识过程,大幅提升系统性能,降低延迟和计算成本,使多智能体AI从实验阶段迈向实际应用。
过去一年,LLM Agent几乎成为所有 AI 研究团队与工业界的共同方向。
OpenAI在持续推进更强的推理与工具使用能力,Google DeepMind将推理显式建模为搜索问题,Anthropic则通过规范与自我批判提升模型可靠性。
一个非常清晰的行业趋势正在形成:单模型能力正在接近结构性边界,多智能体被视为下一步。
Advaita Research/Hetu联合创始人Jialin Li发布的最新研究论文,为多智能体协作共识提出了明确的理论框架,并给出了一组生产级系统指标的跃迁式改善:在accuracy基本不变的前提下,实现最高20×端到端延迟下降,最高11×的P99尾延迟改善,以及最高4.4×的token成本削减。

论文链接:https://arxiv.org/pdf/2512.20184
英文版链接:https://x.com/advaita_labs/status/2018576622048473241
这项工作将多智能体推理的问题,从prompt与workflow设计,重新拉回到系统设计和工程层面:一致性语义、停止条件与尾延迟治理。
在工程语境中,论文给出的核心判断可以概括为一句话:当前多智能体系统,缺乏一套明确的Agentic Consensus(智能体共识)系统语义。
Advaita Research / Hetu CMO Stephanie Yu从系统工程视角对论文进行了解读。
研究背景
在当前主流路线中,大型研究机构对Agent的探索大致可以分为三类,但它们在一个关键问题上保持了共同的沉默:当多个随机推理主体并行工作时,系统何时可以认为已经达成稳定一致?
OpenAI:强化单主体推理能力
OpenAI的路线始终围绕test-time scaling,包括self-consistency、多路径推理、更强的 chain-of-thought、更成熟的 tool use。
该体系在单主体条件下具有非常清晰的工程优势:推理质量高度可控、行为一致性强、工程复杂度集中。
其隐含前提同样明确:系统只有一个决策主体。
一旦扩展为多个planner、多个actor并行执行,一致性不再由模型内部保证,而被外包给上层workflow的规则组合。
Google DeepMind搜索式推理
Tree-of-Thoughts等方法将推理显式建模为搜索问题,通过评估函数在候选路径中选择最优解。
该范式在离线推理和数学问题上表现稳定,但在系统层面呈现出两个明显特征:推理过程高度同步、停止条件由搜索深度或预算上限决定。
本质上,这类方法优化的是路径质量,而不是在并发、延迟与成本约束下的决策时机问题。
Anthropic/Meta启发式协调
Anthropic的constitutional debate,以及Meta、Stanford 提出的多 Agent debate / society-of-minds,引入了多主体交互。
在工程实现上,这类系统通常依赖:固定agent数、固定轮数、barrier synchronization(等待所有 agent 完成)、多数投票或规则聚合。
但这些机制并没有给出稳定一致性的系统定义。
当主流Agent路线仍在强化「如何更好地推理」,将多智能体视为推理技巧的叠加时,
Advaita Research的这项研究把问题下沉到了系统层:在多个随机推理主体并行时,如何定义、验证并稳定达成一致。
把多智能体当成分布式系统
论文提出的核心方法体系为Aegean,其根本重构在于:多智能体推理不再被视为workflow编排问题,而被建模为一个分布式共识过程。
不同于传统分布式系统,智能体决策呈现随机不确定性,使得现有共识协议架构无法适用。论文针对多智能体环境提出了新的共识理论框架,并给出了严谨的多智能体共识的正确性定义。
论文之后基于理论框架提出了新的共识协议。其核心机制包括三点:
(1)Quorum-fast,而不是wait-all
系统不再等待所有agent,只要达到 quorum 即推进决策,延迟不再由最慢 agent 决定。
(2)稳定性窗口(β),而不是「一致就停」
一致性必须在时间维度上持续存在,才能被视为有效共识,从而过滤暂时性多数。
(3)Streaming共识与即时取消
在token生成过程中持续检测共识状态,一旦满足稳定条件,立即终止剩余生成。
详细结果与实验分析
论文指出:多智能体推理,本质上是运行在随机推理主体之上的分布式共识问题。
一旦缺乏明确的共识语义,工程失败并非偶发,而是呈现出高度可预测的系统性模式。
暂时性一致:多数并不稳定标题
论文系统性测量了decision flip现象(在现有Agent workflow中几乎未被显式建模)。
结果显示:在引入agent间 reasoning exchange后,准确率提升的同时,多数决策在相邻轮次发生反转的频率显著上升。
以MMLU为例:100个样本中出现64次 decision flip,意味着系统在连续轮次中反复改变多数结论。
在缺乏稳定性约束时,任何基于「当前多数」的提前停止或投票机制,都可能发生在transient agreement(暂时性一致)上。
这不是推理能力问题,而是共识未被定义的问题。
同步模型错误:P99被最慢agent定义
当前多Agent系统普遍采用barrier synchronization,论文在AIME(1 req/s)场景下,对比了主流做法与引入共识机制后的系统表现:
多Agent baseline(MaxRound = 6)最慢请求为6571秒,P99 延迟为8749秒
引入共识机制后,最慢请求约325秒,P99延迟为772 秒;
在相同任务条件下:P99 延迟改善约11×,平均延迟改善约20×
该差异并非来自模型推理能力,而来自同步范式从「等所有人」转向「达成共识即可推进」。
算力浪费:token消耗发生在收敛之后
论文进一步量化了多智能体系统中长期被忽视的问题:收敛之后的无效计算。
在多个基准任务上,引入Agentic Consensus后:
GSM8K:4.4×减少(约 1.3K vs 5.7K)
MMLU:3.3×减少(约 3.3K vs 10.7K)
AIME:1.3×减少(约 46.0K vs 59.9K)
IMO:1.1×减少(约 64.8K vs 73.8K)
与此同时,accuracy波动被控制在约2.5%以内。
这表明:token成本下降来自共识驱动的早停与取消机制,而不是通过牺牲质量实现。
数字刻画了系统边界
在引入Agentic Consensus(Advaita Research 提出的多智能体共识建模方法)后,系统行为出现了清晰的数量级变化:平均延迟降低1.2–20×,P99尾延迟最高改善11×,token消耗降低1.1–4.4×,accuracy波动约2.5%
这些指标共同指向同一个系统级结论:多智能体推理的性能瓶颈,并不来自模型能力,而来自协作机制是否具备可操作的共识语义。
工程判断与应用前景
Agentic Consensus并不是一个附加能力,而是一条明确的系统分界线。
当Agent作为真实系统中的行动单元运行时,问题不再是:「单个模型能否推理得更好」,而是在多个随机推理主体并行的情况下,系统是否具备可判断、可停止、可扩展的一致性语义。
论文给出的核心判断标准是:如果一个多智能体系统无法明确回答「何时算达成一致、何时可以安全停止、延迟由谁决定」,那它在工程上仍停留在workflow,而非系统。
从这个角度看:decision flip、P99被最慢agent定义、收敛后的token浪费,都不是实现细节上的瑕疵,而是系统尚未进入「共识可操作阶段」的信号。
Advaita Research的这项工作,并不是提出一种新的Agent玩法,而是把Agentic Consensus提升为一个工程判断标准:多智能体推理,是否已经从「推理技巧的叠加」,迈入「具备可验证共识语义的系统」。
当这个标准成立,多智能体才能真正从demo走向production;当它不成立,再复杂的推理流程,也只是在同步成本之上叠加计算。
参考资料:
https://arxiv.org/pdf/2512.20184

相关攻略
长思维链虽热门,但其高能耗高维特性可能并非最优。未来推理模型需向更稳定、低维的系统发展,高效结合快慢思考。当前模型易错且纠错成本高,而深度思考的潜力在于发现新知识。推理本质是逻辑组合知识以解决新问题,发展应追求“多快好省”与“双商齐备”,并突破目前局限于数学与代码的。
OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商
这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、
北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支
如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答
热门专题
热门推荐
近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十
科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,
SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。
NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。
OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。





