商汤绝影3B激活参数性能超越GPT与Opus
车机端侧大模型的困境,业内讨论已久:复杂任务需要深度推理,而深度推理又依赖庞大的模型参数。参数规模上不去,智能水平就受限;可要把动辄数百亿参数的云端模型塞进车机,算力和功耗又成了难以逾越的障碍。这个死循环,似乎让真正的“智能座舱”始终隔着一层纱。
如今,这个僵局被打破了。商汤绝影刚刚发布了端侧多模态大模型Sage。它采用了一种巧妙的架构:总参数达到320亿,但在执行任务时,实际激活的参数仅有30亿。正是这一设计,首次将云端级别的智能体能力,实实在在地带到了车机端侧。
它的实力如何?在公开的智能体评测基准PinchBench上,Sage取得了94%的最佳任务完成率。这个成绩不仅超过了Claude Opus 4.6(93.3%)和GPT-5.4(90.5%),也领先于一众参数规模远大于它的云端旗舰模型。目前,Sage已在英伟达OrinX这样的主流车规级芯片平台上实现部署。


作为端侧智能体的基座模型,Sage可以无缝接入OpenClaw、Hermes等主流智能体框架,这意味着它为未来更多端侧智能应用的落地提供了核心支撑,其潜力将覆盖出行、家庭乃至更广泛的全场景。
3B激活参数,何以超越百亿级模型?
在PinchBench这个被业界广泛认可的公开评测中,Sage的表现堪称惊艳。94%的任务完成率,让它稳稳站在了榜单前列,超越了包括Claude Opus 4.6、GPT-5.4、Google Gemini 3等在内的众多前沿模型。

PinchBench之所以权威,在于它模拟的是真实的智能体工作流。它的任务库并非一成不变,而是持续动态更新,覆盖写作、研究、编码、文件处理、日程管理等复杂场景,核心考察模型在工具调用、多步推理和最终任务闭环上的综合能力。
更重要的是,它的测试方式要求模型真正“动手”完成任务,综合衡量成功率、速度和资源消耗,单次任务的token消耗可能高达数十万。因此,在PinchBench上的高分,更能反映一个模型在真实、复杂场景下的实战能力,而不仅仅是纸面答题。
据悉,在北京车展期间,商汤绝影将推出搭载Sage的硬件产品“SageBox”,作为整车的模型接入单元,加速其上车进程。
两项核心技术:从“听懂”到“办成”的关键一跃
Sage能在端侧跑出超越云端模型的成绩,背后是两项关键的后训练技术:SCOUT和ERL。可以说,一项负责让模型“高效学”,另一项负责让模型“准确做”,共同解决了车载大模型从被动响应到主动完成复杂任务的终极难题。
SCOUT:高效学习,算力节省60%
面对出行场景中纷繁复杂的任务(比如多设备联动、空间规划),直接让大模型去试错学习,成本极高且效率低下。SCOUT(分级协同学习框架)的创新之处在于,它引入了“侦察兵”机制。
具体来说,先派遣一个轻量级的小模型去任务环境中探索,把可行的路径和方案筛选出来,生成高质量的“经验数据”。然后,再将这些精华数据喂给主模型(Sage)进行学习。这种“小模型探路,大模型吸收”的模式,使得在注入复杂场景能力时,能够节省约60%的GPU算力消耗,学习速度也大大加快。

ERL:自我纠错,任务成功率提升20%
用户的一个复杂指令,往往需要模型进行多步推理和执行。过程中任何一步出现偏差,都可能导致满盘皆输。已被机器学习顶级会议ICLR 2026收录的ERL(可擦除强化学习)技术,正是为了解决这个问题。
它让模型具备了一种“自我审查”和“即时修正”的能力。在推理链中,一旦模型识别出某个步骤可能存在错误,它可以主动“擦除”这一步,并在原位重新生成正确的推理,防止错误向后扩散。这项技术让Sage在多跳复杂推理任务上的成功率提升了20%,显著增强了其执行可靠性。

SCOUT与ERL一前一后,协同工作,共同将Sage从一个优秀的语言模型,锻造成为一个能够独立规划并可靠完成复杂任务的智能体基座。再结合其一体化多模态架构和原生训练数据的优势,Sage在能力、成本和量产可行性之间找到了一个精妙的平衡点。
全面领先:端侧模型的能力新水平
如果说PinchBench证明了Sage“能办成事”,那么在各专业维度基准测试上的表现,则说明了它“事办得有多好”。对比本月最新发布的同量级端侧旗舰模型Google Gemma 4,Sage实现了全面领先。
在MMLU Pro(跨学科知识)测试中,Sage得分76,领先约10%,证明其知识密度达到云端水准;在GPQA Diamond(研究生级专业推理)测试中,得分77,提升33%,展现了深厚的复杂推理能力;在针对座舱的语义与视觉理解测试中,得分91,提升32%,凸显了其原生多模态数据的优势。

尤为关键的是在τ2-bench基准上的表现。这个基准专门评估模型调用工具、完成多步任务闭环的实战能力,是区分“聊天模型”和“办事智能体”的核心标尺。Sage在此取得了80分的成绩,相比Gemma 4实现了38%的提升,接近翻倍的领先幅度。这直接印证了Sage作为智能体基座,在真实任务执行层面的绝对优势。
从数据到体验:智能座舱的质变
上述所有技术优势,最终都要转化为真实的用户体验。在车舱场景下,Sage展现出了一组亮眼的数据:场景推理精度超过90%,长链路工具调用、逻辑规划、环境感知等任务的成功率分别达到92%、89%和94%,复杂指令遵循率提升了40%。
在英伟达OrinX平台上部署时,Sage能够实现首字响应约0.5秒,单Token推理延迟低至0.03秒,生成吞吐达到80 tokens/秒。这意味着其平均任务响应速度优于主流云端API模型,能为座舱提供稳定、实时、可持续在线的智能服务。
落到实际场景,这意味着什么呢?用户可以说出“我有点冷,顺便找一家评分高的火锅店,把导航路线发我手机”这样的复合指令,Sage能一次性理解,并自动联动空调、车机娱乐系统和导航,完成全链路服务。它还能结合车内传感器,感知乘客状态或路况变化,主动触发儿童模式或建议调整路线。
至此,车机内的AI不再是一个需要唤醒、只能进行单轮对话的语音助手,而进化成为一个真正理解场景、善于思考、并能主动服务的出行伙伴。智能座舱的体验,因为端侧智能体能力的落地,正在发生根本性的改变。
相关研究论文:
[1] arXiv:https://arxiv.org/abs/2601.21754
[2] arXiv:https://arxiv.org/abs/2510.00861
热门专题
热门推荐
微信群里的接龙,方便是真方便,但整理起来,那叫一个头疼。手动复制粘贴,不仅耗时费力,还容易出错、遗漏,最后导出的表格格式五花八门,看着就心累。 有没有一种方法,能让这个过程自动化,让数据自己“跑”进表格里?答案是肯定的。借助一些工具,我们可以实现群内接龙数据的自动识别、解析和归档。下面,就来拆解一下
VineCoin(VINE币):重塑创作者经济的区块链新星 在数字资产的浪潮中,VineCoin(VINE币)正作为一个新兴项目崭露头角。它并非又一种简单的代币,其野心在于利用区块链技术,从根本上重塑内容创作与社交互动的经济规则。可以说,它致力于成为一个去中心化生态系统的核心引擎,目标是为全球的内容
ToClaw文件整理术:一键清理桌面杂乱文件的秘籍 | AI智能文件管理教程 利用AI智能助手整理电脑桌面文件,愿景虽好,但在实际应用中,你是否也遇到过分类不准确、指令执行失败,甚至文件被误移的困扰?请放心,这些问题往往源于几个关键的设置步骤尚未完善。掌握以下这套经过验证的ToClaw文件整理优化方
三星电子工会确认原定罢工计划未取消,但将遵守法院禁令,确保罢工不影响正常生产流程。劳资博弈进入微妙阶段,工会需在法律框架内施压,公司生产秩序暂获法律庇护,后续发展取决于双方谈判。
千问AI赋能社群自动化运营:一、关键词触发智能回复;二、定时任务精准推送;三、敏感词实时过滤预警;四、成员标签化智能分组。 社群运营工作繁杂,常常需要处理大量重复性任务,如解答常见问题、发布定时通知、监控群内动态等,这让运营者倍感压力。如何实现高效、智能的社群管理,解放人力?利用千问AI的强大功能,





