商汤科技开源多模态推理模型SenseNova MARS详解
SenseNova-MARS是什么
在追求AI模型规模与性能的浪潮中,一个根本性问题日益凸显:模型究竟是在真正“理解”信息,还是仅仅在复现训练数据中的模式?商汤科技开源的SenseNova-MARS,为这一问题提供了全新的视角。它不仅是一个先进的多模态大模型,更是业界首个深度融合动态视觉推理与图文搜索能力的Agentic VLM(智能体式视觉语言模型)。
简而言之,MARS赋予了AI“自主行动”的智能。模型提供8B和32B两种参数版本,其核心创新在于,它能像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具链,无需人工逐步干预,即可完成复杂的多跳推理任务。这标志着AI正从被动的“问答机器”向主动的“任务执行者”演进。
在性能表现上,SenseNova-MARS-32B在MMSearch、HR-MMSearch、FVQA等七大权威多模态基准测试中,取得了平均69.74分的优异成绩,超越了Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),在开源多模态模型中达到了领先的SOTA水平。这份成绩充分证明了其卓越的技术实力。
SenseNova-MARS的主要功能
这个具备“自主执行”能力的模型,具体拥有哪些核心功能?主要体现在以下三个关键方面:
- 深度多模态搜索推理:超越基础的图文匹配。MARS能够深度融合图像与文本信息进行跨模态检索,并动态调度工具链,完成需要多步关联与逻辑递进的复杂知识推理。例如,识别图片中的特定元素后,它能主动发起搜索获取背景信息,并综合所有信息进行深度分析与判断。
- 细粒度视觉理解与分析:面对4K乃至8K的超高清图像,许多模型会忽略细节。MARS支持对图像进行精准的局部裁剪与识别,即使目标物体在画面中的占比极小(不足5%),也能被有效定位与分析。这项能力对于处理真实世界中的复杂视觉场景至关重要。
- 自主智能体任务执行:这是其灵魂功能。模型在接收任务后,能够自主进行步骤规划(确定先执行什么,后执行什么),使图像裁剪、文本搜索、图像搜索等多个工具协同工作,形成一个完整的端到端问题解决闭环,整个过程无需人工介入。
SenseNova-MARS的技术原理
实现上述强大能力,依赖于一套精心设计的训练架构与算法。其技术原理可拆解为以下几个核心组成部分:
- 双阶段训练架构:训练过程分为两个阶段。第一阶段为“冷启动”监督微调,使用约3000个高质量的多轮交互轨迹数据,让模型初步掌握基础的工具使用逻辑。第二阶段则引入关键的BN-GSPO强化学习算法。该算法专门优化多工具场景下因轨迹长度与奖励尺度差异导致的训练不稳定问题。通过“组内归一化”与“批次归一化”两步操作,平衡不同任务的学习信号,从而稳定、高效地提升模型的多工具协同与决策能力。
- 动作空间与工具设计:模型在每一步(轮)交互中拥有四个选项:执行文本搜索、执行图像搜索、进行图像裁剪,或终止任务并给出最终答案。其中,图像裁剪通过归一化的边界框坐标实现精准的局部区域放大。所有工具调用均遵循严格的JSON格式规范,确保了交互过程的结构化与可解析性。
- 奖励模型机制:在强化学习中,奖励信号引导模型优化方向。MARS采用GPT-4o作为“裁判”,从两个维度提供稀疏奖励:一是答案准确性,评估最终答案与标准答案的语义匹配度;二是格式合规性,确保每一轮输出都包含结构化的思考链与规范的工具调用指令。这引导模型既追求结果正确,也遵循操作规范。
- 自动化数据合成引擎:高质量训练数据来源于商汤构建的多模态智能体数据引擎。该引擎能自动完成三项工作:定位图像中的细粒度视觉关键点、进行多跳深度关联检索、并对生成的推理链条进行闭环自洽性验证。通过这种方式,它能从海量网页数据中自动挖掘跨实体的复杂逻辑关系,构建高难度的多跳推理训练样本,同时有效过滤其中的“幻觉”信息,保障了数据的高质量与可靠性。
SenseNova-MARS的项目地址
对于广大开发者、研究人员及技术爱好者而言,如何获取并探索这一模型至关重要。所有相关资源均已全面开源:
- GitHub项目仓库:包含核心源代码、详细的使用文档及最新更新。
地址:https://github.com/OpenSenseNova/SenseNova-MARS - HuggingFace模型库:提供8B和32B两个版本的模型下载及在线体验。
地址:
https://huggingface.co/sensenova/SenseNova-MARS-32B
https://huggingface.co/sensenova/SenseNova-MARS-8B - arXiv技术论文:如需深入了解其技术细节、实验设计与完整数据,可阅读其学术论文。
地址:https://arxiv.org/pdf/2512.24330
SenseNova-MARS的应用场景
凭借其强大的自主多模态推理能力,SenseNova-MARS在众多领域拥有广泛的应用前景:
- 体育竞技智能分析:例如,识别赛车服上微小的品牌标识,自动查询相关企业背景及车手资料,甚至分析比赛画面计算时间差,用于赛事数据核实与自动化报道生成。
- 商业情报与竞争分析:从行业会议合影中自动识别各公司Logo,快速搜集对应产品的详细参数、市场动态及最新融资信息,辅助商业分析师高效把握竞争格局。
- 新闻与事实核查:针对社交媒体传播的高清新闻图片,追溯图中事件的发生背景、关键人物的真实身份,成为打击网络虚假信息与深度伪造内容的有力工具。
- 学术研究与教育辅助:自动解析科研论文中的复杂图表与数据,并检索相关的历史文献、理论依据及实验方法,极大加速科研人员的文献调研与知识整合进程。
- 智能地理探索与旅行导览:识别旅行照片中的地标建筑、文物细节或路牌信息,实时检索其历史文化背景、旅行攻略及相关故事,为用户提供深度、沉浸式的个性化智能导览体验。
总而言之,SenseNova-MARS的出现,不仅是多模态模型性能的一次飞跃,更代表了一种技术范式的演进——它推动AI从静态的知识库与问答系统,转变为能够主动观察环境、进行逻辑思考、并执行复杂任务的智能体。随着其全面开源,必将激发更多需要深度多模态推理的实际应用创新。
相关攻略
SenseNova-MARS是什么 在追求AI模型规模与性能的浪潮中,一个根本性问题日益凸显:模型究竟是在真正“理解”信息,还是仅仅在复现训练数据中的模式?商汤科技开源的SenseNova-MARS,为这一问题提供了全新的视角。它不仅是一个先进的多模态大模型,更是业界首个深度融合动态视觉推理与图文搜
Qwen3-ASR是什么 在语音识别技术领域,每一次新模型的发布都备受瞩目。近期,阿里云通义千问团队开源了Qwen3-ASR系列模型,迅速引发了业界的广泛关注。简而言之,这是一套集成了两大核心语音识别模型与一个专用工具的完整解决方案。 具体而言,该系列提供了1 7B参数的高精度版本与0 6B参数的高
在当今高速发展的商业环境中,销售部门的绩效评估已成为企业精细化运营与战略决策的核心环节。它不仅仅是对过往业绩的回顾,更是一次系统的诊断与复盘。通过深入剖析团队表现与关键业务数据,我们能够精准识别优势与短板,从而为下一阶段的战略规划与资源调配提供清晰、可靠的行动指南。 适合需求: 销售部绩效评估报告撰
MiniMax Music 2 5是什么 如果说此前的AI音乐生成工具尚处于“实验性”阶段,那么MiniMax Music 2 5的发布,则正式宣告了AI音乐创作迈入“专业级”时代。这款新一代AI音乐模型,核心解决了行业长期面临的两大技术瓶颈:一是实现了对音乐整体架构的“段落级精准控制”,二是达成了
Prism是什么 如果你正在为学术论文写作中繁琐的格式排版、复杂的文献引用以及低效的团队协作而烦恼,那么OpenAI最新推出的Prism或许正是你期待的解决方案。这款免费的云端AI科研写作平台,旨在利用人工智能技术彻底革新学术创作的流程与体验。 简而言之,Prism是一个以LaTeX为底层核心,并深
热门专题
热门推荐
在追求极致效率的现代软件开发中,一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”,其核心理念清晰而有力:将人工智能深度无缝地集成到编码工作流的每一个步骤,为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景 那么,这款AI驱动的编辑器
在众多AI图像生成工具中,WHEE凭借其精准的产品定位与持续的功能迭代,正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器,核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。 那么,这款AI绘图工具究竟有哪些核心优势?下面我们从其关键特性与功能设计进行深入
在AI绘画工具不断涌现的当下,一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具,更是一个融合了多种前沿人工智能技术的创意平台,帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么? NightCafe C
近期加密货币市场受到宏观经济不确定性及流动性紧缩影响,比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势,市场情绪趋于谨慎。 比特币近期走势分析 比特币的价格近期表现如何?简单来说,它跌破了几个市场公认的关键支撑位,而且伴随交易量的放大。这种放量下跌的信号,往往意味着多空分歧加剧。无论
蔡司宣布将于6月2日发布一款新镜头,并称其为镜头技术的重大突破,标志着全新纪元的开启。官方仅公布了产品剪影,但措辞暗示其可能带来根本性的技术升级,例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。





