商汤SenseNova-MARS模型全面开源性能超越Gemini-3-Pro
多模态AI领域迎来重大突破。商汤科技正式开源其SenseNova-MARS模型,提供8B和32B两个版本。在衡量多模态搜索与推理能力的核心基准测试中,该模型以69.74的平均分,超越了谷歌Gemini-3-Pro(69.06分)和OpenAI GPT-5.2(67.64分),展现出卓越性能。
这不仅是分数的提升,更是能力的跃迁。SenseNova-MARS被定位为首个支持动态视觉推理并与图文搜索深度融合的智能体模型。它能够主动规划任务步骤、自主调用工具,像专家一样解决复杂问题,标志着AI向具备真正“执行能力”迈出了关键一步。
在MMSearch、HR-MMSearch、FVQA等多个权威多模态基准测试中,SenseNova-MARS不仅稳居开源模型榜首,更在视觉搜索与推理两大核心领域,实现了对顶级闭源模型的全面超越。更多技术细节可查阅其官方论文。
全能冠军,自主解决复杂问题
SenseNova-MARS的领先优势在多项硬核评测中得到验证。其69.74的平均分,直观展示了其在多模态搜索与推理任务上的综合实力。

例如,在专注于图文搜索核心能力的MMSearch榜单上,它以74.27分登顶,大幅领先于GPT-5.2的66.08分。而在更具挑战性的HR-MMSearch评测中,它则以54.43分确立了明显优势。

HR-MMSearch测试堪称“AI界的奥林匹克”:所有题目均基于2025年最新的4K超高清图片,杜绝了模型依赖训练数据“记忆”的可能;问题全部针对图片中占比不足5%的微小细节,如不起眼的标志、细小的文字,必须借助图像裁剪工具才能看清;题目覆盖八大领域,且超过60%的问题需要组合调用至少三种工具才能解答。
可以说,无论是需要广博知识储备的查询,还是依赖极致视觉细粒度分析的任务,SenseNova-MARS都展现了当前“全能冠军”的潜质。
用组合拳,解决真实场景问题
真正的价值在于落地应用。SenseNova-MARS的核心能力,在于解决那些需要“多步骤推理”与“多工具协作”的真实世界复杂问题。
传统的AI工具调用往往功能单一,遇到需要“先放大细节观察、再识别物体、最后查询背景信息”的连环任务时,便难以为继。

而SenseNova-MARS可以自主处理这类任务。例如,面对“识别赛车服上微小Logo、查询该品牌公司成立年份、匹配车手出生年月、最后计算两者时间差”的复杂指令,它能自动规划步骤,调用图像裁剪、文本与图像搜索等一系列工具,无需人工干预即可完成闭环解答。

这种能力能直接转化为生产力。比如,从行业峰会照片中识别企业标志,随即自动搜集相关产品信息、企业动态及关键数据,快速辅助进行市场与竞争格局分析。

在体育领域,它能从赛事照片中识别出Logo、特定人物等信息,并自动追溯比赛背景或人员资料,高效补充内容创作所需的关键细节。

即便是步骤极其冗长、需要调用超过三种工具的复杂推理任务,例如自动裁剪分析图表细节、搜索比对相关研究数据以验证某个假设,SenseNova-MARS也能应对自如,快速得出关键判断。
归根结底,正是这种“自主规划”与“多工具协作”的能力,让AI能够自动串联起“细节识别、信息检索、逻辑推理”的全链条,切实提升处理复杂任务的效率。其核心工具能力可归纳为三点:
图像裁剪:精准聚焦图片上的微小细节,即便是占比不足5%的元素,如服装上的小标志或远处的标语,都能通过裁剪放大进行清晰分析。
图像搜索:在看到物体、人物或场景的瞬间,自动匹配关联信息,例如识别出特定车型或冷门设备型号。
文本搜索:快速抓取精准的文本信息,无论是公司成立年份、人物生平,还是最新的行业数据,都能迅速获取。
从练中学,形成“直觉”和“经验”
如此强大的能力从何而来?关键在于一套“因材施教”的两阶段训练方法。
第一阶段是打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,研究团队创新性地采用了基于多模智能体的自动化数据合成引擎。该引擎通过“细粒度视觉锚点定位”与“多跳深度关联检索”机制,动态挖掘并关联跨网页实体间的逻辑,自动化构建出高复杂度的多跳推理链路。同时,引入闭环自洽性校验来剔除存在幻觉或矛盾的数据,最终构造出逻辑严密、知识密度高的优质训练数据。这相当于为AI精心筛选了一套“高难度案例集”,每个案例都明确了工具使用与步骤规划,让模型从一开始就学习真实的复杂问题解决逻辑。
第二阶段是练实战。这一阶段采用强化学习策略。AI每做出一次正确决策(如选用工具得当、步骤合理)便会获得奖励,反之则调整策略。这就好比侦探在大量案件中积累经验。为了确保训练稳定,团队引入了BN-GSPO算法作为“稳定器”。这种基于双阶段归一化的机制,有效平滑了动态工具调用返回结果的分布差异,确保了学习信号的一致性,从而成功解决了跨模态多步多工具智能体训练中的收敛难题,让模型在处理不同难度任务时都能均衡进步。
经过这样系统的训练,模型掌握的不仅是工具的使用方法,更培养出一种“工具使用直觉”——知道在何种情境下该调用哪些工具,以及如何将不同工具的输出结果有机整合,形成最终答案。
目前,商汤已全面开源SenseNova-MARS的模型权重、代码及部分数据集,开发者可通过Hugging Face平台直接下载使用,加速多模态AI应用的开发与创新。
相关攻略
IDC报告将商汤科技定位为中国AI咨询服务市场领导者。其凭借“大装置-大模型-应用”战略与全流程专家服务,帮助企业应对AI落地中的成本、适配与安全挑战,实现从战略规划到持续运营的全周期支持。目前服务已扩展至金融、能源、交通等多个领域。
生态与工具链,正成为大模型竞争下半场的决胜关键。最近,商汤科技的一系列动作,为这个判断提供了一个生动的注脚。 当大多数同行还在琢磨如何将强大的模型能力变&现收费时,商汤却反其道而行之:推出首月每5小时1500次的免费调用额度,宣称Token消耗比同行低60%,三款新产品同步上线,甚至将核心模型U1以
2025年5月8日,商汤科技正式推出其新一代轻量化多模态智能体模型——日日新SenseNova 6 7 Flash-Lite。此次发布同步开启了SenseNova Token Plan的限时免费开放,并将全线办公技能SenseNova-Skills在GitHub平台全面开源,旨在为开发者提供更便捷的
商汤绝影发布可悠(Care U):从“陪你聊天”到“帮你做事”的家庭AI新成员 4月8日,商汤绝影旗下迎来了一位重磅“新成员”——AI智能硬件产品“可悠(Care U)”。这款产品的定位很有意思,它试图完成的,是一次从“陪你聊天”到“帮你做事”的实质性跨越。 那么,它是如何实现这一步跨越的呢?关键在
近日,作为2026中关村论坛核心组成部分,由趋境科技与九源智能计算系统生态联合体共同主办的“全栈智能 全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会成功举办。商汤大装置首席架构师项铁
热门专题
热门推荐
iQOO手机官方今日正式宣布,iQOO 15T已开启全渠道预约。随着预约启动,官方预热海报也首次揭示了新机的侧边轮廓设计。 关于这款新机的更多细节,此前已有数码博主提前剧透。据称,iQOO 15T将延续自家Ultra系列的设计语言,采用标志性的透明风格方形摄像头模组。更引人注目的是其屏幕配置——据爆
期末复习在图书馆熬到深夜,突然下起暴雨,裹紧羽绒服还得冒雨下楼拿外卖;军训结束累得只想瘫倒,宿管阿姨却把骑手拦在宿舍区外;想和室友凑单改善伙食,又被复杂的满减、助力规则搞得晕头转向……这大概是许多大学新生的共同经历,差点以为“冲刺取餐”成了宿舍生存的必备技能。其实,只要掌握正确方法,完全能省去这些奔
一则来自三星(中国)投资有限公司的业务调整通知,在今日引发了广泛关注。通知的核心内容相当明确:为应对急剧变化的市场环境,三星电子决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 这意味着,一个曾经在中国家电市场占据重要地位的品牌,其消费端的产品销售画上了句号。当然,市场更关心的是,存量
关于一加下一代旗舰手机一加 16 的最新爆料信息,近期引发了数码圈的广泛关注。知名数码博主 @数码闲聊站 最新透露了一款代号为 SM8975(即骁龙 8 Elite Gen6 Pro 平台)的子品牌新机细节,结合其暗示的表情符号,这款新机极有可能就是备受期待的一加 16。 根据最新的爆料信息,一加
三星电子的一则公告,在市场上激起了不小的波澜。根据其官方发布的消息,为应对当前急剧变化的市场环境,公司经过慎重评估,决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 图为三星电子发布的公告截图 这意味着,消费者未来将无法在官方渠道购买到三星品牌的电视、显示器等家用电器。不过,对于已经购





