商汤绝影3B激活参数性能超越GPT与Opus

首页

热心网友

转载

2026-05-18

车机端侧大模型的困境，业内讨论已久：复杂任务需要深度推理，而深度推理又依赖庞大的模型参数。参数规模上不去，智能水平就受限；可要把动辄数百亿参数的云端模型塞进车机，算力和功耗又成了难以逾越的障碍。这个死循环，似乎让真正的“智能座舱”始终隔着一层纱。

如今，这个僵局被打破了。商汤绝影刚刚发布了端侧多模态大模型Sage。它采用了一种巧妙的架构：总参数达到320亿，但在执行任务时，实际激活的参数仅有30亿。正是这一设计，首次将云端级别的智能体能力，实实在在地带到了车机端侧。

它的实力如何？在公开的智能体评测基准PinchBench上，Sage取得了94%的最佳任务完成率。这个成绩不仅超过了Claude Opus 4.6（93.3%）和GPT-5.4（90.5%），也领先于一众参数规模远大于它的云端旗舰模型。目前，Sage已在英伟达OrinX这样的主流车规级芯片平台上实现部署。

作为端侧智能体的基座模型，Sage可以无缝接入OpenClaw、Hermes等主流智能体框架，这意味着它为未来更多端侧智能应用的落地提供了核心支撑，其潜力将覆盖出行、家庭乃至更广泛的全场景。

3B激活参数，何以超越百亿级模型？

在PinchBench这个被业界广泛认可的公开评测中，Sage的表现堪称惊艳。94%的任务完成率，让它稳稳站在了榜单前列，超越了包括Claude Opus 4.6、GPT-5.4、Google Gemini 3等在内的众多前沿模型。

PinchBench之所以权威，在于它模拟的是真实的智能体工作流。它的任务库并非一成不变，而是持续动态更新，覆盖写作、研究、编码、文件处理、日程管理等复杂场景，核心考察模型在工具调用、多步推理和最终任务闭环上的综合能力。

更重要的是，它的测试方式要求模型真正“动手”完成任务，综合衡量成功率、速度和资源消耗，单次任务的token消耗可能高达数十万。因此，在PinchBench上的高分，更能反映一个模型在真实、复杂场景下的实战能力，而不仅仅是纸面答题。

据悉，在北京车展期间，商汤绝影将推出搭载Sage的硬件产品“SageBox”，作为整车的模型接入单元，加速其上车进程。

两项核心技术：从“听懂”到“办成”的关键一跃

Sage能在端侧跑出超越云端模型的成绩，背后是两项关键的后训练技术：SCOUT和ERL。可以说，一项负责让模型“高效学”，另一项负责让模型“准确做”，共同解决了车载大模型从被动响应到主动完成复杂任务的终极难题。

SCOUT：高效学习，算力节省60%

面对出行场景中纷繁复杂的任务（比如多设备联动、空间规划），直接让大模型去试错学习，成本极高且效率低下。SCOUT（分级协同学习框架）的创新之处在于，它引入了“侦察兵”机制。

具体来说，先派遣一个轻量级的小模型去任务环境中探索，把可行的路径和方案筛选出来，生成高质量的“经验数据”。然后，再将这些精华数据喂给主模型（Sage）进行学习。这种“小模型探路，大模型吸收”的模式，使得在注入复杂场景能力时，能够节省约60%的GPU算力消耗，学习速度也大大加快。

ERL：自我纠错，任务成功率提升20%

用户的一个复杂指令，往往需要模型进行多步推理和执行。过程中任何一步出现偏差，都可能导致满盘皆输。已被机器学习顶级会议ICLR 2026收录的ERL（可擦除强化学习）技术，正是为了解决这个问题。

它让模型具备了一种“自我审查”和“即时修正”的能力。在推理链中，一旦模型识别出某个步骤可能存在错误，它可以主动“擦除”这一步，并在原位重新生成正确的推理，防止错误向后扩散。这项技术让Sage在多跳复杂推理任务上的成功率提升了20%，显著增强了其执行可靠性。

SCOUT与ERL一前一后，协同工作，共同将Sage从一个优秀的语言模型，锻造成为一个能够独立规划并可靠完成复杂任务的智能体基座。再结合其一体化多模态架构和原生训练数据的优势，Sage在能力、成本和量产可行性之间找到了一个精妙的平衡点。

全面领先：端侧模型的能力新水平

如果说PinchBench证明了Sage“能办成事”，那么在各专业维度基准测试上的表现，则说明了它“事办得有多好”。对比本月最新发布的同量级端侧旗舰模型Google Gemma 4，Sage实现了全面领先。

在MMLU Pro（跨学科知识）测试中，Sage得分76，领先约10%，证明其知识密度达到云端水准；在GPQA Diamond（研究生级专业推理）测试中，得分77，提升33%，展现了深厚的复杂推理能力；在针对座舱的语义与视觉理解测试中，得分91，提升32%，凸显了其原生多模态数据的优势。

尤为关键的是在τ2-bench基准上的表现。这个基准专门评估模型调用工具、完成多步任务闭环的实战能力，是区分“聊天模型”和“办事智能体”的核心标尺。Sage在此取得了80分的成绩，相比Gemma 4实现了38%的提升，接近翻倍的领先幅度。这直接印证了Sage作为智能体基座，在真实任务执行层面的绝对优势。

从数据到体验：智能座舱的质变

上述所有技术优势，最终都要转化为真实的用户体验。在车舱场景下，Sage展现出了一组亮眼的数据：场景推理精度超过90%，长链路工具调用、逻辑规划、环境感知等任务的成功率分别达到92%、89%和94%，复杂指令遵循率提升了40%。

在英伟达OrinX平台上部署时，Sage能够实现首字响应约0.5秒，单Token推理延迟低至0.03秒，生成吞吐达到80 tokens/秒。这意味着其平均任务响应速度优于主流云端API模型，能为座舱提供稳定、实时、可持续在线的智能服务。

落到实际场景，这意味着什么呢？用户可以说出“我有点冷，顺便找一家评分高的火锅店，把导航路线发我手机”这样的复合指令，Sage能一次性理解，并自动联动空调、车机娱乐系统和导航，完成全链路服务。它还能结合车内传感器，感知乘客状态或路况变化，主动触发儿童模式或建议调整路线。

至此，车机内的AI不再是一个需要唤醒、只能进行单轮对话的语音助手，而进化成为一个真正理解场景、善于思考、并能主动服务的出行伙伴。智能座舱的体验，因为端侧智能体能力的落地，正在发生根本性的改变。

相关研究论文：

[1] arXiv：https://arxiv.org/abs/2601.21754

[2] arXiv：https://arxiv.org/abs/2510.00861

来源:https://www.51cto.com/article/841441.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：东航接入阿里千问AI办事服务实现智能选座值机下一篇：荣耀人形机器人加速发展厚植消费终端沃土是关键

热门推荐

微信群接龙数据自动整理工具OpenClaw一键生成表格

微信群里的接龙，方便是真方便，但整理起来，那叫一个头疼。手动复制粘贴，不仅耗时费力，还容易出错、遗漏，最后导出的表格格式五花八门，看着就心累。有没有一种方法，能让这个过程自动化，让数据自己“跑”进表格里？答案是肯定的。借助一些工具，我们可以实现群内接龙数据的自动识别、解析和归档。下面，就来拆解一下

热心网友

05.18

web3.0

VINE币怎么买？VINE价格预测2025到2030年及未来前景分析

VineCoin（VINE币）：重塑创作者经济的区块链新星在数字资产的浪潮中，VineCoin（VINE币）正作为一个新兴项目崭露头角。它并非又一种简单的代币，其野心在于利用区块链技术，从根本上重塑内容创作与社交互动的经济规则。可以说，它致力于成为一个去中心化生态系统的核心引擎，目标是为全球的内容

热心网友

05.18

ToClaw文件整理术一键清理桌面杂乱文件实用教程

ToClaw文件整理术：一键清理桌面杂乱文件的秘籍 | AI智能文件管理教程利用AI智能助手整理电脑桌面文件，愿景虽好，但在实际应用中，你是否也遇到过分类不准确、指令执行失败，甚至文件被误移的困扰？请放心，这些问题往往源于几个关键的设置步骤尚未完善。掌握以下这套经过验证的ToClaw文件整理优化方

热心网友

05.18

web3.0

全链网罢工计划不变区块链去中心化争议持续

三星电子工会确认原定罢工计划未取消，但将遵守法院禁令，确保罢工不影响正常生产流程。劳资博弈进入微妙阶段，工会需在法律框架内施压，公司生产秩序暂获法律庇护，后续发展取决于双方谈判。

热心网友

05.18

千问AI如何助力社群运营实现自动回复与管理

千问AI赋能社群自动化运营：一、关键词触发智能回复；二、定时任务精准推送；三、敏感词实时过滤预警；四、成员标签化智能分组。社群运营工作繁杂，常常需要处理大量重复性任务，如解答常见问题、发布定时通知、监控群内动态等，这让运营者倍感压力。如何实现高效、智能的社群管理，解放人力？利用千问AI的强大功能，

热心网友

05.18