据IT之家最新消息,商汤于1月29日正式开源了全新的多模态自主推理模型SenseNova-MARS,并提供8B及32B两个版本。官方介绍称,该模型是业内首个将动态视觉推理与图文搜索深度整合的Agentic VLM模型。
以下为相关资源地址:
Github 仓库
模型仓库
32B版本 8B版本
测试数据显示,SenseNova-MARS在多模态搜索与推理的核心基准评测中获得了69.74分,表现超越了Gemini-3-Pro的69.06分以及GPT-5.2的67.64分。
作为首个深度整合动态视觉推理与图文搜索能力的Agentic VLM模型,SenseNova-MARS能够自主规划任务步骤,调用各类工具,轻松处理各种复杂场景。它让AI真正具备了“执行力”,成为更可靠的任务助手。
在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等一系列标准测试中,SenseNova-MARS均取得了开源模型中的最优成绩,其表现甚至超越了Gemini-3.0-Pro、GPT-5.2等顶级闭源模型。
为了让大家更直观地了解它的实际应用,我们整理了几个典型的使用案例。
面对一个需要同时识别赛车服上微小logo、查询公司成立年份、匹配车手出生年月并计算差值的复杂任务时,SenseNova-MARS可以自主调用图像裁剪、文本/图像搜索工具,无需人工干预即可完成闭环推理。

从产品发布会或行业峰会的现场照片中,SenseNova-MARS能够识别企业的标识,快速搜集相关产品、公司背景信息,以及时间、数量、参数等具体细节,辅助分析行业现状与竞争格局。

根据赛事照片,模型可识别画面中的品牌logo、人物等信息,追溯比赛进程或个人背景,帮助用户快速补充遗漏的关键细节。

模型还能轻松处理步骤超长的多模态推理任务,支持超过三种工具的调用。它可以自动裁剪并分析图像细节,搜索相关研究数据,快速验证假设,最终得出关键判断。

总而言之,SenseNova-MARS能够自动解决“细节识别+信息检索+逻辑推理”的复杂链条任务,有效帮助提升工作效率。
图像裁剪功能:能精准聚焦图片上的微小细节,即便其占比不到5%——例如赛车手服装上的微型logo、赛事照片里观众席上的标语,都能通过裁剪放大进行清晰分析。图像搜索功能:能在看到物体、人物或场景的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的具体型号。文本搜索功能:能快速抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据,都能秒级获取。
