英伟达以“小脑指挥大脑”重铸AGI,革新AI生产力布局

新智元报道
编辑:peter东
【新智元导读】觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。
最近,NVIDIA Research发现,只要经过适当微调,小模型已足以「指挥」大模型
英伟达研究团队的新模型Orchestrator仅有 80 亿参数(8B)的模型,不仅比以往的工具使用类AI智能体准确率更高、成本更低,还能在工具选择上精准对齐用户的偏好。
在HLE基准测试中,Orchestrator斩获了37.1%的高分,一举超越了GPT-5(35.1%),同时在效率上提升了2.5倍。
在tau2-Bench和FRAMES测试中,Orchestrator同样以大幅优势领先 GPT-5,而其成本仅为后者的30%左右。
在多项指标上,Orchestrator均实现了性能与成本的最佳平衡,并能出色地泛化至未曾见过的工具中。

预印本链接:https://arxiv.org/abs/2511.21689
为什么「强模型+工具」还是不够好?
面对Humanity’s Last Exam(HLE)这类超难综合推理考试,现在的大模型虽然「什么都懂一点」,但一到深度推理+控制成本就开始吃力。
只靠一个大模型(比如GPT-5)去调用搜索、代码解释器这些基础工具,很难同时做到:够准、够便宜、够可控。
为了省钱,业界第一反应是:别什么都让最强模型上,搞个「调度者」来分配任务。
但真把主流大模型拉来做调度者,结果却很讽刺:
当GPT-5做调度时,98%的请求还是落回GPT-5或GPT-5-mini;
换成Qwen3-8B,当它拿不准时,73%的任务直接无脑丢给GPT-5。
换句话说:我们以为造了个「调度者」,结果只是多请了一个「转接电话的前台」。

使用不同模型作为调度者后,给不同模型分配的任务
结果说明,仅仅通过提示词,无法让常见的大模型变成合格的调度者。
而ToolOrchestra,通过将「智能」从单一模型中解耦,重构为「轻量调度中枢+异构能力工具集」的复合系统,构成了一种全新的模型与工具协同范式。
接下来,看看Orchestrator是怎么训练出来的。
Orchestrator:多轮执行与自定义RL
想象一下:过去的大模型,都像高端餐厅,全靠「米其林主厨」(GPT-5)从头到尾亲自炒菜——火候、刀工、摆盘,全靠一人。
结果呢?由于单个token成本很高,导致总成本直接原地起飞。
而英伟达新推出的「拼好饭」模式如同中央厨房,一个聪明的「调度店长」(8B小模型Orchestrator)驻守中央,店长不亲自炒菜,而是:
让街角「川菜小馆」(Qwen-Math-7B)爆炒回锅肉(数学题);
招「粤式点心师傅」(Coder-32B)蒸一笼虾饺(写代码);
实在拿不准?叫米其林主厨(GPT-5)来尝一口、定个味。

Orchestrator的架构图
其中用于调度的8B小模型Orchestrator,会通过强化学习,根据用户声明的倾向,系统自动倾向本地部署模型。
而训练过程中的奖励函数,可分为3部分:
1. 结果,即是否答对,答对+1,否则0;由GPT5给出判断;
2. 效率,对应金钱成本和时间延迟;
3. 对齐用户工具偏好向量。
三部分加起来,才是强化学习的目标函数,而最终训练得到会权衡、听指挥、懂省钱的Orchestrator。
Orchestrator还包含类人分步求解机制:
可通过COT思维链,Orchestrator分析当前状态,规划下一步的结构化工具调用;
之后,通过环境执行(如数学推导、代码执行输出)并返回结果;
如此多轮循环,则是Orchestrator的另一创新点。
有了训练方法,该研究还构建ToolScale来支撑强化学习的训练。
作为首个大规模、可验证的多轮工具调用合成数据集:ToolScale通过大模型自动构建10个领域(金融、医疗、航空等)的模拟环境(含数据库+工具API),再生成43万条含人工标记的最佳工具调用轨迹的任务。

ToolScale数据合成流程概览
每条任务需满足三重验证:
执行正确性(数据库状态变更一致)
过程保真度(关键信息被提及)
操作完备性。
这些数据被用来训练Orchestrator。
AGI的「务实主义革命」
在三大高难度基准上,Orchestrator-8B全面超越现有方法且显著降低推理成本:
在HLE(人类终极考试)取得37.1%准确率(vs.GPT-5的35.1%),成本仅9.2美分(为GPT-5的30%);
在τ2-Bench(函数调用严测)上有80.2%正确率,仅有约40%的步骤调用GPT-5;
而在FRAMES(事实性推理)得分76.3%(vs.SOTA74.2%),延迟降至8.2分钟(为GPT-5的41%)。

Orchestrator调度后的模型性能和成本对比。
相较于强大的单体大语言模型系统,Orchestrator实现了最佳的成本效益:

进一步分析揭示其卓越性能源于理性分工能力:
Orchestrator会按需调用本地检索、Math-7B、Qwen-32B等低成本工具,仅在关键步调用GPT-5(1.95次/题);
若是GPT-5进行调度,那么解决一道题目需要平均调用5.23次GPT05-mini。
调用低成本的模型去解决不那么复杂的问题,正是Orchestrator能够降本增效的根源。

Orchestrator调用不同工具的比例对比
Orchestrator还展现出极强泛化性:面对训练未见模型(如Gemma-3-27B、Codestral-22B)或新定价策略(DeepInfra),其性能仅轻微波动,证明其学会的是工具能力抽象与成本-效益权衡的通用策略,而非过拟合特定配置。
同时在满足用户偏好时,Orchestrator的表现也优于其它大模型,这证明Orchestrator具有可定制、可约束、可解释的工具调度能力。
复合AI第一步
这几年,AI 世界一直在讲同一个故事:先造出一个尽可能大的通用大脑,再通过提示词和少量样本,把它临时「装扮」成翻译、写作、编程等各种专家。
但随着研究不断推进,这个故事开始松动:
越来越多由多个模型和工具协同工作的「复合AI系统」,在安全性、速度和成本上都比单一大模型更有优势,甚至在能力上也实现赶超。
总结来看,面对大模型使用后的高成本,高能耗问题,Orchestrator展现了通过将「决策权」与「执行权」分离,不再指望一个超人拯救世界,完全可开辟一条通往高效、可控、可扩展的实用化AGI系统的新路径。
ToolOrchestra标志着我们朝着构建真正智能的复合AI系统迈出了第一步,这代表着一种正在兴起、旨在取代单一化AI架构的新范式。
小语言模型终将成为实现可扩展智能体AI的关键核心。
参考资料:
https://arxiv.org/abs/2511.21689
https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/
https://research.nvidia.com/labs/lpr/ToolOrchestra/
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
相关攻略
当AI能力成为通用基础设施,企业真正的核心竞争力是什么? “我不知道AI这艘船上有多少船票,但我知道,上船最重要。”特赞科技创始人兼CEO范凌的这句话,精准击中了当下企业决策者的核心焦虑。这并非源于短期的市场压力,而是一种关乎未来生存的深层紧迫感——在一个马太效应被AI技术急剧放大的商业时代,错失先
近期,AI智能体领域的一个开源项目openJiuwen引发了广泛关注。该项目接连获得Tech in Asia与MarkTechPost等权威海外科技媒体的深度报道,前者重点解析了其架构设计,后者则深入探讨了基于它构建的JiuwenClaw智能体的自演进能力。这波来自国际技术社区的关注,标志着其创新的
最近,一款名为updream的AI视频创作产品,在专业创作者的小圈子里引发了不小的讨论。它在前不久的B站首届AI创作大赛颁奖活动上首次亮相,随即在各大创作者社群中掀起了一股“求内测码”的热潮。一款尚未正式发布的产品,能让这群早已阅“AI神器”无数的老手们主动排队,这本身就值得玩味。 当然,updre
在人工智能领域,我们正见证着一个激动人心的范式转变。过去,构建一个强大的AI系统往往意味着需要“从头开始”训练一个庞大的模型,这个过程不仅耗费巨量的计算资源和数据,而且周期漫长。但现在,一种更高效、更灵活的策略正在成为主流:基于现有的、能力强大的基础模型,通过“微调”来快速适配特定任务或领域。 这就
以「自进化」重构 Agent 体验。 最近几周,开源社区的目光被一个名为 Hermes Agent 的项目牢牢吸引。它在 X 和 GitHub 上迅速走红,热度堪称现象级。 从2月底开源首月斩获2 2万星,到4月8日发布v0 8 0版本后单日新增超过6400星,Hermes Agent在不到两个月的
热门专题
热门推荐
现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急
目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显
近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进
DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么
如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,





