首页 游戏 软件 资讯 排行榜 专题
首页
AI
英伟达以“小脑指挥大脑”重铸AGI,革新AI生产力布局

英伟达以“小脑指挥大脑”重铸AGI,革新AI生产力布局

热心网友
64
转载
2025-12-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:peter东

【新智元导读】觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。

最近,NVIDIA Research发现,只要经过适当微调,小模型已足以「指挥」大模型

英伟达研究团队的新模型Orchestrator仅有 80 亿参数(8B)的模型,不仅比以往的工具使用类AI智能体准确率更高、成本更低,还能在工具选择上精准对齐用户的偏好。

在HLE基准测试中,Orchestrator斩获了37.1%的高分,一举超越了GPT-5(35.1%),同时在效率上提升了2.5倍。

在tau2-Bench和FRAMES测试中,Orchestrator同样以大幅优势领先 GPT-5,而其成本仅为后者的30%左右。

在多项指标上,Orchestrator均实现了性能与成本的最佳平衡,并能出色地泛化至未曾见过的工具中。


预印本链接:https://arxiv.org/abs/2511.21689

为什么「强模型+工具」还是不够好?

面对Humanity’s Last Exam(HLE)这类超难综合推理考试,现在的大模型虽然「什么都懂一点」,但一到深度推理+控制成本就开始吃力。

只靠一个大模型(比如GPT-5)去调用搜索、代码解释器这些基础工具,很难同时做到:够准、够便宜、够可控。

为了省钱,业界第一反应是:别什么都让最强模型上,搞个「调度者」来分配任务。

但真把主流大模型拉来做调度者,结果却很讽刺:

当GPT-5做调度时,98%的请求还是落回GPT-5或GPT-5-mini;

换成Qwen3-8B,当它拿不准时,73%的任务直接无脑丢给GPT-5。

换句话说:我们以为造了个「调度者」,结果只是多请了一个「转接电话的前台」。


使用不同模型作为调度者后,给不同模型分配的任务

结果说明,仅仅通过提示词,无法让常见的大模型变成合格的调度者。

而ToolOrchestra,通过将「智能」从单一模型中解耦,重构为「轻量调度中枢+异构能力工具集」的复合系统,构成了一种全新的模型与工具协同范式。

接下来,看看Orchestrator是怎么训练出来的。

Orchestrator:多轮执行与自定义RL

想象一下:过去的大模型,都像高端餐厅,全靠「米其林主厨」(GPT-5)从头到尾亲自炒菜——火候、刀工、摆盘,全靠一人。

结果呢?由于单个token成本很高,导致总成本直接原地起飞。

而英伟达新推出的「拼好饭」模式如同中央厨房,一个聪明的「调度店长」(8B小模型Orchestrator)驻守中央,店长不亲自炒菜,而是:

让街角「川菜小馆」(Qwen-Math-7B)爆炒回锅肉(数学题);

招「粤式点心师傅」(Coder-32B)蒸一笼虾饺(写代码);

实在拿不准?叫米其林主厨(GPT-5)来尝一口、定个味。


Orchestrator的架构图

其中用于调度的8B小模型Orchestrator,会通过强化学习,根据用户声明的倾向,系统自动倾向本地部署模型。

而训练过程中的奖励函数,可分为3部分:

1. 结果,即是否答对,答对+1,否则0;由GPT5给出判断;

2. 效率,对应金钱成本和时间延迟;

3. 对齐用户工具偏好向量。

三部分加起来,才是强化学习的目标函数,而最终训练得到会权衡、听指挥、懂省钱的Orchestrator。

Orchestrator还包含类人分步求解机制:

可通过COT思维链,Orchestrator分析当前状态,规划下一步的结构化工具调用;

之后,通过环境执行(如数学推导、代码执行输出)并返回结果;

如此多轮循环,则是Orchestrator的另一创新点。

有了训练方法,该研究还构建ToolScale来支撑强化学习的训练。

作为首个大规模、可验证的多轮工具调用合成数据集:ToolScale通过大模型自动构建10个领域(金融、医疗、航空等)的模拟环境(含数据库+工具API),再生成43万条含人工标记的最佳工具调用轨迹的任务。


ToolScale数据合成流程概览

每条任务需满足三重验证:

执行正确性(数据库状态变更一致)

过程保真度(关键信息被提及)

操作完备性。

这些数据被用来训练Orchestrator。

AGI的「务实主义革命」

在三大高难度基准上,Orchestrator-8B全面超越现有方法且显著降低推理成本:

在HLE(人类终极考试)取得37.1%准确率(vs.GPT-5的35.1%),成本仅9.2美分(为GPT-5的30%);

在τ2-Bench(函数调用严测)上有80.2%正确率,仅有约40%的步骤调用GPT-5;

而在FRAMES(事实性推理)得分76.3%(vs.SOTA74.2%),延迟降至8.2分钟(为GPT-5的41%)。


Orchestrator调度后的模型性能和成本对比。

相较于强大的单体大语言模型系统,Orchestrator实现了最佳的成本效益:


进一步分析揭示其卓越性能源于理性分工能力:

Orchestrator会按需调用本地检索、Math-7B、Qwen-32B等低成本工具,仅在关键步调用GPT-5(1.95次/题);

若是GPT-5进行调度,那么解决一道题目需要平均调用5.23次GPT05-mini。

调用低成本的模型去解决不那么复杂的问题,正是Orchestrator能够降本增效的根源。


Orchestrator调用不同工具的比例对比

Orchestrator还展现出极强泛化性:面对训练未见模型(如Gemma-3-27B、Codestral-22B)或新定价策略(DeepInfra),其性能仅轻微波动,证明其学会的是工具能力抽象与成本-效益权衡的通用策略,而非过拟合特定配置。

同时在满足用户偏好时,Orchestrator的表现也优于其它大模型,这证明Orchestrator具有可定制、可约束、可解释的工具调度能力。

复合AI第一步

这几年,AI 世界一直在讲同一个故事:先造出一个尽可能大的通用大脑,再通过提示词和少量样本,把它临时「装扮」成翻译、写作、编程等各种专家。

但随着研究不断推进,这个故事开始松动:

越来越多由多个模型和工具协同工作的「复合AI系统」,在安全性、速度和成本上都比单一大模型更有优势,甚至在能力上也实现赶超。

总结来看,面对大模型使用后的高成本,高能耗问题,Orchestrator展现了通过将「决策权」与「执行权」分离,不再指望一个超人拯救世界,完全可开辟一条通往高效、可控、可扩展的实用化AGI系统的新路径。

ToolOrchestra标志着我们朝着构建真正智能的复合AI系统迈出了第一步,这代表着一种正在兴起、旨在取代单一化AI架构的新范式。

小语言模型终将成为实现可扩展智能体AI的关键核心。

参考资料:

https://arxiv.org/abs/2511.21689

https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/

https://research.nvidia.com/labs/lpr/ToolOrchestra/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

来源:https://www.163.com/dy/article/KGIFO5M10511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

龙虾养殖为何越养越贵,成本效益如何优化?
科技数码
龙虾养殖为何越养越贵,成本效益如何优化?

前阵子被捧上神坛的OpenClaw,现在已经成了人人喊打的吞金兽。很多人把问题归咎于大模型不够聪明,或者开源项目 Bug 太多。但我们体验一周后,可以明确告诉大家:都不是。核心原因就俩字:错配。龙虾

热心网友
03.28
Anthropic算力告急:本周Claude高峰时段使用指南
科技数码
Anthropic算力告急:本周Claude高峰时段使用指南

Claude的爆炸式增长遇到算力瓶颈。这家AI公司本周悄然收紧了旗下Claude产品的使用限制,成为大模型厂商面临算力瓶颈这一行业困境的最新注脚。据悉,Anthropic本周对Claude免费版、P

热心网友
03.28
迅策科技:业绩猛增背后的价值重估机遇与关键驱动
科技数码
迅策科技:业绩猛增背后的价值重估机遇与关键驱动

今年3月,AI圈最热闹的话题莫过于“Token”与“龙虾”。这不是代币与餐桌上的海鲜,而是AI时代的计价单位,以及一批以Open Claw为代表的AI操作系统,它们像当年的Windows一样,试图成

热心网友
03.27
AI研究者解析AI分词:从Token到词元的演进与分位量化
科技数码
AI研究者解析AI分词:从Token到词元的演进与分位量化

  日前,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏明确将Token称为“词元”,并将它定义为“结算单位”。作为一名长期跟踪人工智能发展的研究人员,我一下子就捕捉到这个表述的变化。这个

热心网友
03.27
aiXcoder-4B超DeepSeek:代码变更模型应用指南
AI
aiXcoder-4B超DeepSeek:代码变更模型应用指南

机器之心发布一款 “反直觉” 的产品,往往最能折射一个产业的真实需求。3 月 25 日,硅心科技(aiXcoder)发布了一款专为「代码变更应用」场景设计的高性能、轻量级模型 aiX-apply-4

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

揭秘中国联通:九成宽带已支持千兆,百大城市试点领先部署
网络安全
揭秘中国联通:九成宽带已支持千兆,百大城市试点领先部署

3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城

热心网友
03.28
163邮箱登录指南:个人版与手机网页版入口详解
电脑教程
163邮箱登录指南:个人版与手机网页版入口详解

163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163

热心网友
03.28
冒险岛:3步设置游戏键盘,社区玩家必备指南
手机教程
冒险岛:3步设置游戏键盘,社区玩家必备指南

在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一

热心网友
03.28
崩铁谎言终幕效果解析:星穹铁道光锥特效全览
游戏攻略
崩铁谎言终幕效果解析:星穹铁道光锥特效全览

一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星

热心网友
03.28
《白夜提灯》开播槽点全解析:男女主无CP感,演技能否逆转口碑?
娱乐
《白夜提灯》开播槽点全解析:男女主无CP感,演技能否逆转口碑?

2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全

热心网友
03.28