商汤SenseNova-MARS模型全面开源性能超越Gemini-3-Pro

首页

热心网友

转载

2026-05-16

多模态AI领域迎来重大突破。商汤科技正式开源其SenseNova-MARS模型，提供8B和32B两个版本。在衡量多模态搜索与推理能力的核心基准测试中，该模型以69.74的平均分，超越了谷歌Gemini-3-Pro（69.06分）和OpenAI GPT-5.2（67.64分），展现出卓越性能。

这不仅是分数的提升，更是能力的跃迁。SenseNova-MARS被定位为首个支持动态视觉推理并与图文搜索深度融合的智能体模型。它能够主动规划任务步骤、自主调用工具，像专家一样解决复杂问题，标志着AI向具备真正“执行能力”迈出了关键一步。

在MMSearch、HR-MMSearch、FVQA等多个权威多模态基准测试中，SenseNova-MARS不仅稳居开源模型榜首，更在视觉搜索与推理两大核心领域，实现了对顶级闭源模型的全面超越。更多技术细节可查阅其官方论文。

全能冠军，自主解决复杂问题

SenseNova-MARS的领先优势在多项硬核评测中得到验证。其69.74的平均分，直观展示了其在多模态搜索与推理任务上的综合实力。

例如，在专注于图文搜索核心能力的MMSearch榜单上，它以74.27分登顶，大幅领先于GPT-5.2的66.08分。而在更具挑战性的HR-MMSearch评测中，它则以54.43分确立了明显优势。

HR-MMSearch测试堪称“AI界的奥林匹克”：所有题目均基于2025年最新的4K超高清图片，杜绝了模型依赖训练数据“记忆”的可能；问题全部针对图片中占比不足5%的微小细节，如不起眼的标志、细小的文字，必须借助图像裁剪工具才能看清；题目覆盖八大领域，且超过60%的问题需要组合调用至少三种工具才能解答。

可以说，无论是需要广博知识储备的查询，还是依赖极致视觉细粒度分析的任务，SenseNova-MARS都展现了当前“全能冠军”的潜质。

用组合拳，解决真实场景问题

真正的价值在于落地应用。SenseNova-MARS的核心能力，在于解决那些需要“多步骤推理”与“多工具协作”的真实世界复杂问题。

传统的AI工具调用往往功能单一，遇到需要“先放大细节观察、再识别物体、最后查询背景信息”的连环任务时，便难以为继。

而SenseNova-MARS可以自主处理这类任务。例如，面对“识别赛车服上微小Logo、查询该品牌公司成立年份、匹配车手出生年月、最后计算两者时间差”的复杂指令，它能自动规划步骤，调用图像裁剪、文本与图像搜索等一系列工具，无需人工干预即可完成闭环解答。

这种能力能直接转化为生产力。比如，从行业峰会照片中识别企业标志，随即自动搜集相关产品信息、企业动态及关键数据，快速辅助进行市场与竞争格局分析。

在体育领域，它能从赛事照片中识别出Logo、特定人物等信息，并自动追溯比赛背景或人员资料，高效补充内容创作所需的关键细节。

即便是步骤极其冗长、需要调用超过三种工具的复杂推理任务，例如自动裁剪分析图表细节、搜索比对相关研究数据以验证某个假设，SenseNova-MARS也能应对自如，快速得出关键判断。

归根结底，正是这种“自主规划”与“多工具协作”的能力，让AI能够自动串联起“细节识别、信息检索、逻辑推理”的全链条，切实提升处理复杂任务的效率。其核心工具能力可归纳为三点：

图像裁剪：精准聚焦图片上的微小细节，即便是占比不足5%的元素，如服装上的小标志或远处的标语，都能通过裁剪放大进行清晰分析。

图像搜索：在看到物体、人物或场景的瞬间，自动匹配关联信息，例如识别出特定车型或冷门设备型号。

文本搜索：快速抓取精准的文本信息，无论是公司成立年份、人物生平，还是最新的行业数据，都能迅速获取。

从练中学，形成“直觉”和“经验”

如此强大的能力从何而来？关键在于一套“因材施教”的两阶段训练方法。

第一阶段是打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点，研究团队创新性地采用了基于多模智能体的自动化数据合成引擎。该引擎通过“细粒度视觉锚点定位”与“多跳深度关联检索”机制，动态挖掘并关联跨网页实体间的逻辑，自动化构建出高复杂度的多跳推理链路。同时，引入闭环自洽性校验来剔除存在幻觉或矛盾的数据，最终构造出逻辑严密、知识密度高的优质训练数据。这相当于为AI精心筛选了一套“高难度案例集”，每个案例都明确了工具使用与步骤规划，让模型从一开始就学习真实的复杂问题解决逻辑。

第二阶段是练实战。这一阶段采用强化学习策略。AI每做出一次正确决策（如选用工具得当、步骤合理）便会获得奖励，反之则调整策略。这就好比侦探在大量案件中积累经验。为了确保训练稳定，团队引入了BN-GSPO算法作为“稳定器”。这种基于双阶段归一化的机制，有效平滑了动态工具调用返回结果的分布差异，确保了学习信号的一致性，从而成功解决了跨模态多步多工具智能体训练中的收敛难题，让模型在处理不同难度任务时都能均衡进步。

经过这样系统的训练，模型掌握的不仅是工具的使用方法，更培养出一种“工具使用直觉”——知道在何种情境下该调用哪些工具，以及如何将不同工具的输出结果有机整合，形成最终答案。

目前，商汤已全面开源SenseNova-MARS的模型权重、代码及部分数据集，开发者可通过Hugging Face平台直接下载使用，加速多模态AI应用的开发与创新。

来源:https://www.leiphone.com/category/academic/PBcDro6PmN9rI6yK.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：即梦AI隐私政策查看方法与权限设置详解下一篇：Figma AI响应式布局断点错误解决方法：手动设置Constraints约束规则

热门推荐

业界动态

iQOO 15T新机预约启动延续Ultra系列旗舰设计风格

iQOO手机官方今日正式宣布，iQOO 15T已开启全渠道预约。随着预约启动，官方预热海报也首次揭示了新机的侧边轮廓设计。关于这款新机的更多细节，此前已有数码博主提前剧透。据称，iQOO 15T将延续自家Ultra系列的设计语言，采用标志性的透明风格方形摄像头模组。更引人注目的是其屏幕配置——据爆

热心网友

05.16

业界动态

美团外卖五折优惠直送寝室无需下楼

期末复习在图书馆熬到深夜，突然下起暴雨，裹紧羽绒服还得冒雨下楼拿外卖；军训结束累得只想瘫倒，宿管阿姨却把骑手拦在宿舍区外；想和室友凑单改善伙食，又被复杂的满减、助力规则搞得晕头转向……这大概是许多大学新生的共同经历，差点以为“冲刺取餐”成了宿舍生存的必备技能。其实，只要掌握正确方法，完全能省去这些奔

热心网友

05.16