商汤科技开源多模态推理模型SenseNova MARS详解

首页

AI资讯

热心网友

转载

2026-05-23

SenseNova-MARS是什么

在追求AI模型规模与性能的浪潮中，一个根本性问题日益凸显：模型究竟是在真正“理解”信息，还是仅仅在复现训练数据中的模式？商汤科技开源的SenseNova-MARS，为这一问题提供了全新的视角。它不仅是一个先进的多模态大模型，更是业界首个深度融合动态视觉推理与图文搜索能力的Agentic VLM（智能体式视觉语言模型）。

简而言之，MARS赋予了AI“自主行动”的智能。模型提供8B和32B两种参数版本，其核心创新在于，它能像智能体一样自主规划任务步骤，灵活调用图像裁剪、文本搜索、图像搜索三大工具链，无需人工逐步干预，即可完成复杂的多跳推理任务。这标志着AI正从被动的“问答机器”向主动的“任务执行者”演进。

在性能表现上，SenseNova-MARS-32B在MMSearch、HR-MMSearch、FVQA等七大权威多模态基准测试中，取得了平均69.74分的优异成绩，超越了Gemini-3-Pro（69.06分）和GPT-5.2（67.64分），在开源多模态模型中达到了领先的SOTA水平。这份成绩充分证明了其卓越的技术实力。

SenseNova-MARS的主要功能

这个具备“自主执行”能力的模型，具体拥有哪些核心功能？主要体现在以下三个关键方面：

深度多模态搜索推理：超越基础的图文匹配。MARS能够深度融合图像与文本信息进行跨模态检索，并动态调度工具链，完成需要多步关联与逻辑递进的复杂知识推理。例如，识别图片中的特定元素后，它能主动发起搜索获取背景信息，并综合所有信息进行深度分析与判断。
细粒度视觉理解与分析：面对4K乃至8K的超高清图像，许多模型会忽略细节。MARS支持对图像进行精准的局部裁剪与识别，即使目标物体在画面中的占比极小（不足5%），也能被有效定位与分析。这项能力对于处理真实世界中的复杂视觉场景至关重要。
自主智能体任务执行：这是其灵魂功能。模型在接收任务后，能够自主进行步骤规划（确定先执行什么，后执行什么），使图像裁剪、文本搜索、图像搜索等多个工具协同工作，形成一个完整的端到端问题解决闭环，整个过程无需人工介入。

SenseNova-MARS的技术原理

实现上述强大能力，依赖于一套精心设计的训练架构与算法。其技术原理可拆解为以下几个核心组成部分：

双阶段训练架构：训练过程分为两个阶段。第一阶段为“冷启动”监督微调，使用约3000个高质量的多轮交互轨迹数据，让模型初步掌握基础的工具使用逻辑。第二阶段则引入关键的BN-GSPO强化学习算法。该算法专门优化多工具场景下因轨迹长度与奖励尺度差异导致的训练不稳定问题。通过“组内归一化”与“批次归一化”两步操作，平衡不同任务的学习信号，从而稳定、高效地提升模型的多工具协同与决策能力。
动作空间与工具设计：模型在每一步（轮）交互中拥有四个选项：执行文本搜索、执行图像搜索、进行图像裁剪，或终止任务并给出最终答案。其中，图像裁剪通过归一化的边界框坐标实现精准的局部区域放大。所有工具调用均遵循严格的JSON格式规范，确保了交互过程的结构化与可解析性。
奖励模型机制：在强化学习中，奖励信号引导模型优化方向。MARS采用GPT-4o作为“裁判”，从两个维度提供稀疏奖励：一是答案准确性，评估最终答案与标准答案的语义匹配度；二是格式合规性，确保每一轮输出都包含结构化的思考链与规范的工具调用指令。这引导模型既追求结果正确，也遵循操作规范。
自动化数据合成引擎：高质量训练数据来源于商汤构建的多模态智能体数据引擎。该引擎能自动完成三项工作：定位图像中的细粒度视觉关键点、进行多跳深度关联检索、并对生成的推理链条进行闭环自洽性验证。通过这种方式，它能从海量网页数据中自动挖掘跨实体的复杂逻辑关系，构建高难度的多跳推理训练样本，同时有效过滤其中的“幻觉”信息，保障了数据的高质量与可靠性。

SenseNova-MARS的项目地址

对于广大开发者、研究人员及技术爱好者而言，如何获取并探索这一模型至关重要。所有相关资源均已全面开源：

GitHub项目仓库：包含核心源代码、详细的使用文档及最新更新。
地址：https://github.com/OpenSenseNova/SenseNova-MARS
HuggingFace模型库：提供8B和32B两个版本的模型下载及在线体验。
地址：
https://huggingface.co/sensenova/SenseNova-MARS-32B
https://huggingface.co/sensenova/SenseNova-MARS-8B
arXiv技术论文：如需深入了解其技术细节、实验设计与完整数据，可阅读其学术论文。
地址：https://arxiv.org/pdf/2512.24330

SenseNova-MARS的应用场景

凭借其强大的自主多模态推理能力，SenseNova-MARS在众多领域拥有广泛的应用前景：

体育竞技智能分析：例如，识别赛车服上微小的品牌标识，自动查询相关企业背景及车手资料，甚至分析比赛画面计算时间差，用于赛事数据核实与自动化报道生成。
商业情报与竞争分析：从行业会议合影中自动识别各公司Logo，快速搜集对应产品的详细参数、市场动态及最新融资信息，辅助商业分析师高效把握竞争格局。
新闻与事实核查：针对社交媒体传播的高清新闻图片，追溯图中事件的发生背景、关键人物的真实身份，成为打击网络虚假信息与深度伪造内容的有力工具。
学术研究与教育辅助：自动解析科研论文中的复杂图表与数据，并检索相关的历史文献、理论依据及实验方法，极大加速科研人员的文献调研与知识整合进程。
智能地理探索与旅行导览：识别旅行照片中的地标建筑、文物细节或路牌信息，实时检索其历史文化背景、旅行攻略及相关故事，为用户提供深度、沉浸式的个性化智能导览体验。

总而言之，SenseNova-MARS的出现，不仅是多模态模型性能的一次飞跃，更代表了一种技术范式的演进——它推动AI从静态的知识库与问答系统，转变为能够主动观察环境、进行逻辑思考、并执行复杂任务的智能体。随着其全面开源，必将激发更多需要深度多模态推理的实际应用创新。

来源:https://ai-bot.cn/sensenova-mars/

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：阿里通义开源语音识别模型Qwen3-ASR详解下一篇：纳米AI插件功能详解与使用场景扩展指南