首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型

商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型

热心网友
96
转载
2026-04-22

2026 年 4 月 22 日:端侧智能体的新纪元,由商汤绝影开启

就在今天,商汤绝影正式发布了其端侧多模态智能体基座大模型——Sage。这款模型采用了高效的MoE架构,总参数量达到320亿,但激活参数仅为30亿。它的意义何在?简单说,这是行业内首款能在车端实现复杂智能体能力的基座大模型。更令人瞩目的是,在权威的PinchBench评测中,其性能甚至领跑全球一线的云端大模型。目前,Sage已在英伟达Orin X端侧平台上成功部署,标志着技术从云端到车端的实质性跨越。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当前,AI已全面进入智能体时代。然而,汽车的复杂智能体能力长期依赖云端,端侧模型则受限于算力和参数规模,往往只能完成简单的指令响应。这导致智能座舱陷入一个两难境地:依赖云端,就要忍受延迟和高昂的Token成本;坚守端侧,却又缺失了真正的智能体能力。Sage的发布,恰恰打破了这一僵局,首次将云端级别的智能体能力,实实在在地落地到了端侧。

作为端侧智能体的基座,Sage可以无缝接入OpenClaw、Hermes等主流Agent框架,为更多端侧智能体的落地提供了核心支撑,其应用潜力足以覆盖出行、家庭等全场景。

实力印证:PinchBench上的领跑者

口说无凭,实力需要验证。Sage的能力,已经在国际公开评测中得到了有力印证。在公开的Agent评测基准PinchBench中,Sage端侧大模型的最佳任务完成率达到了惊人的94%。这个数字意味着什么?它超越了包括Claude-Opus-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Google-Gemma-4(83.9%)、Qwen3.5-27B(90.0%)、MiniMax-M2.7(89.8%)、MiMo-v2-Pro(87.4%)在内的众多国际主流云侧和端侧大模型。

商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型

商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型

这里有一个关键点值得玩味:Sage仅以30亿激活参数的小体量,就超越了众多参数庞大的云侧旗舰模型。这无疑打破了“只有大模型才能做好智能体任务”的惯性认知,彰显了端侧原生技术路线的高效优势。举个例子,小米MiMo-v2-Pro的激活参数高达420亿,总参数规模超过1万亿。相比之下,Sage的激活参数仅为30亿,所需激活算力仅为前者的1/14;若按模型权重规模近似估算,显存占用更是只有其1/31。然而,在PinchBench上的最佳任务完成率,Sage反而高出6.6个百分点。效率与性能的平衡,由此可见一斑。

商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型

或许你会问,PinchBench究竟有何特别之处?这个由“龙虾之父”Peter Steinberger推荐的公开Agent评测基准,其核心在于面向真实的工作流。它不依赖静态题库,而是随着公开任务库的扩充和版本迭代不断演进。其任务库覆盖写作、研究、编码、分析、邮件处理、文件处理、日程管理、记忆与技能调用等典型场景,重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。

与此同时,PinchBench要求模型完成真实的任务执行,并综合衡量成功率、速度与成本。因此,其测试周期更长、资源消耗也更高,单任务的token消耗可达数十万量级。也正因如此,模型在PinchBench上取得的精度表现,更能真实反映其在复杂现实场景中的综合能力与稳定性。

据悉,在北京车展期间,商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的Sage Box,这无疑是为汽车迈入超级智能体时代,筑牢了核心根基。

凭借两大黑科技,Sage 让座舱从“听懂指令”到“说到做到”

Sage能在PinchBench上跑赢一众国际对手,背后的功臣是商汤绝影在模型后训练阶段自研的两项关键技术:SCOUT和ERL。

以SCOUT和ERL为核心的后训练技术体系,堪称“黄金搭档”:一项让模型“学得又快又省”,另一项让模型“做事不出错”。它们重点突破了智能体在学习效率、训练成本和复杂任务稳定执行上的行业挑战,解决了让车载大模型从“能听懂指令”进化到“能独立办成一件复杂的事”这一公认难题。

SCOUT:让大模型学复杂任务,省 60% 算力

SCOUT(分级协同学习框架)技术,主要解决大模型学习复杂出行场景任务时成本高、试错慢的痛点。在复杂任务能力注入过程中,它可节省约60%的GPU小时消耗。

道理很简单:很多任务涉及空间规划、设备联动、多步决策,如果直接让大模型自己试错学习,过程既缓慢又极其消耗算力。SCOUT的思路很巧妙,叫做“探路与吸收解耦”——先派遣一个轻量级的小模型在任务环境中快速探索一遍,把那些走得通的路径筛选出来,然后再将这些高价值的“经验包”喂给大模型学习。这就形成了“小模型先探路,大模型再吸收”的高效学习机制,在显著降低训练成本的同时,也能让大模型更快地掌握更多真实用车场景技能。

(上述技术成果论文已上传arXiv:https://arxiv.org/abs/2601.21754)

ERL:让模型自己擦掉错误步骤,任务成功率提升 20%

另一项已被机器学习顶级会议ICLR 2026收录的技术,是ERL(可擦除强化学习)。它聚焦于复杂任务链路中的错误识别与纠偏。用户在真实场景中提出的需求,往往需要模型进行多步骤的推理和执行,中间任何一步出现偏差,都可能导致整个任务失败。

ERL的妙处在于,它让模型能够自动识别推理过程中的错误步骤,并对错误内容进行“擦除”并重新生成,从而从源头阻断偏差的扩散。这就像是给模型装上了“边思考边纠错”的能力。这项技术让Sage在多跳复杂推理基准上较此前的最佳水平取得了显著提升。装车实测数据显示,Sage在复杂任务上的完成率提升了20%。

(上述技术成果论文已上传arXiv:https://arxiv.org/abs/2510.00861)

SCOUT和ERL两项技术前后协同,共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。再叠加一体化多模态架构与原生训练数据的优势,Sage在能力、成本与量产可行性之间找到了绝佳的平衡点,为打造真正的智能体中枢提供了核心的AI支撑。

端侧跑出全球领先能力,Sage 定义智能上限

如果说PinchBench上94%的任务完成率证明了Sage“能办成复杂的事”,那么,真正决定座舱体验好坏的,是模型在各个专业维度上是否都“够用、够稳、够聪明”。在多项不同能力维度的公开基准测试中,Sage全面领先于本月最新发布的同量级端侧旗舰模型Google-Gemma4,将端侧模型的能力天花板提升到了一个新的高度。

具体来看:在MMLU Pro(跨学科专业知识)测试中,Sage获得76分,领先同级端侧模型约10%,这证明了端侧模型同样具备云端级别的通用知识密度;在GPQA Diamond(研究生级专业推理)测试中,Sage获得77分,提升幅度达33%,凸显了其在复杂推理上的深度;在Human Semantic Understanding(座舱语义与视觉理解)测试中,Sage获得91分,提升32%,这得益于其原生数据建立的独特优势。

商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型

尤其在重点考察任务执行能力的τ2-bench(工具调用与任务闭环)基准上,Sage以80分的成绩,相较Gemma 4实现了38%的提升,接近翻倍领先。这项基准专门评估模型调用工具、走完多步任务的实战能力,可以说是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。τ2-bench上近一倍的领先优势,直接印证了Sage作为端侧智能体基座,在真实任务执行环节上的绝对实力。

从专业基准到场景体验:Sage 真正“懂场景、会思考、能服务”

这些冷冰冰的基准分数,最终要转化为真实的用户体验。落到真实车舱场景中,Sage的表现如何?数据显示,其场景推理精度超过90%,长链路工具调用、逻辑规划、环境感知任务成功率分别达到92%、89%、94%,复杂指令遵循率提升了40%。

在Orin X平台部署下,Sage可实现首字响应时间约0.5秒、单Token推理延迟低至0.03秒、生成吞吐达到80 tk/S,平均任务时长优于主流API模型。这些指标为座舱智能体提供了稳定、实时、可持续在线的运行能力。

这意味着什么?意味着模型可以一次性解析用户“打开空调、播放音乐、导航到公司,顺便提醒我下午三点开会”这样的复合指令,并自动联动空调、影音、导航等车载系统,一气呵成地完成任务闭环。结合传感器对乘员状态与路况的感知,它还能主动提供儿童模式、智能路线调整等贴心服务。

至此,Sage已经不再是那个“被动唤醒、单次响应”的语音助手,而是一个真正懂场景、会思考、能服务的出行伙伴。

总而言之,商汤绝影Sage端侧多模态智能体基座大模型,为舱驾一体方案打通了一条量产可行的模型路径,打破了技术与落地之间的最后壁垒,正在推动智能座舱从基础交互,向高阶的舱驾融合智能体服务时代跨越。

来源:https://www.leiphone.com/category/industrynews/9KqPK4sjhC0z4Qn5.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型
业界动态
商汤绝影发布端侧多模态智能体基座大模型Sage ,PinchBench 实测 94% 最佳任务完成率领跑主流大模型

2026 年 4 月 22 日:端侧智能体的新纪元,由商汤绝影开启 就在今天,商汤绝影正式发布了其端侧多模态智能体基座大模型——Sage。这款模型采用了高效的MoE架构,总参数量达到320亿,但激活参数仅为30亿。它的意义何在?简单说,这是行业内首款能在车端实现复杂智能体能力的基座大模型。更令人瞩目

热心网友
04.22
雷军:小米积极拥抱 AI 时代,未来三年在 AI 领域投入 600 亿元
AI
雷军:小米积极拥抱 AI 时代,未来三年在 AI 领域投入 600 亿元

小米春季发布会压轴戏:掷地有声的600亿AI宣言 如果说今晚发布的一系列新品是小米给市场的“硬菜”,那么发布会尾声的这番表态,则无疑是整场盛宴的“压轴大戏”。小米创始人雷军在舞台中央郑重宣布,公司将全面拥抱AI时代,并放出了一组极具分量的数字——未来三年,在人工智能领域的投入将高达600亿元软妹币。

热心网友
04.22
OpenClaw 接入个人版微信教程
AI
OpenClaw 接入个人版微信教程

OpenClaw 接入个人版微信教程 环境:Windows 10,OpenClaw 2026 3 24,插件 @tencent-weixin openclaw-weixin@2 0 1 背景 想打通AI和你的个人微信吗?OpenClaw这个强大的AI网关工具提供了可能。它支持通过插件进行功能扩展,而

热心网友
04.21
智谱发布新一代旗舰模型 股价一度突破1000港元,刷新上市新高
科技数码
智谱发布新一代旗舰模型 股价一度突破1000港元,刷新上市新高

智谱股价创新高:模型升级与调价背后的商业逻辑 4月13日早盘,港股市场出现一个引人注目的动向:智谱(02513 HK)股价盘中一度飙升超过7%,不仅突破了1000港元的关键心理关口,最高更触及1005港元,创下了上市以来的历史新高。 市场情绪为何如此高涨?直接驱动力来自公司近期的两项关键动作:一是发

热心网友
04.16
全球首个饲用活性物质垂直大模型“本草智枢”问世
科技数码
全球首个饲用活性物质垂直大模型“本草智枢”问世

全球首个饲用活性物质垂直大模型问世 来源:科技日报 科技日报记者 马爱平 近日,从北京农学院传来一项突破性进展。经过长达二十余年的持续攻关,由该校蒋林树教授团队牵头,联合中国科学院东北地理与农业生态研究所钟荣珍研究员团队等力量,成功研发出全球首个专注于饲用活性物质的垂直大模型——“本草智枢”大模型(

热心网友
04.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年主流十大交易所APP下载指南:币圈新手必看!
web3.0
2026年主流十大交易所APP下载指南:币圈新手必看!

在数字货币快速发展的今天,如何选择一个靠谱的交易平台,往往是新手投资者迈出的第一步。面对市场上琳琅满目的交易所APP,从安全性、易用性到功能特色,究竟该怎么选?下面,我们就来梳理一下2026年主流的数字资产交易平台,帮你从多个维度看清它们的核心特点,无论是想尝试简单的现货买卖,还是计划涉足合约交易,

热心网友
04.22
知名音乐人转型AI抗癌药创业 暂不启动外部融资
业界动态
知名音乐人转型AI抗癌药创业 暂不启动外部融资

从音乐人到AI药物研发创业者:Aloe Blacc的跨界创业之路 近日,美国知名创作歌手Aloe Blacc做客TechCrunch旗下知名播客Equity,分享了他从音乐界成功跨界至AI驱动抗癌药物研发领域的独特经历。尤为引人关注的是,他创立的AI医药公司至今未进行任何外部融资。在访谈中,他深入阐

热心网友
04.22
AI生成视频赛道再升级 Replicate推出Seedance 2.0文生视频模型
业界动态
AI生成视频赛道再升级 Replicate推出Seedance 2.0文生视频模型

AI文生视频:从“猎奇玩具”到“生产力工具”的疾速进化 还记得几年前全网疯传的“威尔·史密斯吃意大利面”吗?那段画面扭曲、动作诡异的视频,一度成为AI文生视频技术稚嫩期的经典注脚——与其说是创作,不如说是一场数字世界的“恐怖谷”体验,离实际应用相距甚远。 然而,技术的演进速度总是超乎想象。过去一年,

热心网友
04.22
百度开源8B文生图模型ERNIE-Image 消费级GPU可运行
业界动态
百度开源8B文生图模型ERNIE-Image 消费级GPU可运行

百度开源文生图模型ERNIE-Image:消费级显卡畅享顶级文字生成效果 2024年4月15日,百度文心大模型团队正式宣布开源其参数规模达80亿的文生图模型ERNIE-Image。该模型最引人注目的优势在于,仅需24GB显存的消费级GPU即可实现高效部署与运行。同时,团队还发布了推理加速版本ERNI

热心网友
04.22
欧亿交易所现货交易时间,全球市场的无缝连接
web3.0
欧亿交易所现货交易时间,全球市场的无缝连接

欧亿交易所现货交易时间:如何理解其全球化设计逻辑? 在数字资产交易的世界里,交易时间的设定绝非小事。它直接关系到投资者的操作空间能否打开,以及整个市场的流动性是否充沛。作为行业内的头部平台,欧亿交易所(OYEX)在现货交易时间上的安排,可以说是一份深思熟虑的“全球时区解决方案”。它的设计,精准地瞄准

热心网友
04.22