Meta分割一切3.0推出，新增概念提示实现语义分割新玩法

首页/科技数码/文章详情

Meta分割一切3.0推出，新增概念提示实现语义分割新玩法

时间：2025-10-13 14:33

传统语义分割好无趣好无聊，技能语义分割加入概念提示，好好玩，要爆了。（doge） SAM 3——第三代“分割一切”模型刚刚被发现，已经悄然投稿ICLR 2026。论文还在双盲评审阶段，作者

传统语义分割好无趣好无聊，技能语义分割加入概念提示，好好玩，要爆了。（doge）

SAM 3——第三代“分割一切”模型刚刚被发现，已经悄然投稿ICLR 2026。

论文还在双盲评审阶段，作者匿名中，但标题暴露一切。

简单来说，就是在这个最新新版中，分割模型终于能听懂人话了：只要说出想要的东西，SAM 3就能在图像/视频中分割出对应实例。

比如，输入“条纹猫”，SAM 3自己就能找出并分割图中所有带条纹的猫猫：

值得一提的是，SAM 3处理一张含100多个物体的图片仅需30ms，对视频也有近实时处理能力。

能听懂人话的SAM

SAM 1引入了基于点、框、掩码等视觉提示的交互式分割任务，开辟了分割模型的新范式；SAM 2则在此基础之上，加入了对视频和记忆的支持。

这一次，SAM 3让这种交互式分割更进一步：支持基于短语、图像示例等概念提示的多实例分割任务——对，捎带手突破了前代只能处理单个实例的局限。

论文中，SAM 3的研究团队将这种新任务范式命名为PCS（Promptable Concept Segmentation）。

PCS：可提示概念分割

PCS的定义是，给定图像或视频，模型能够基于短语、图像示例，或者两者结合的方式，分割其中所有匹配提示概念的实例。

相比于传统分割任务，PCS强调：

开放性词汇：不局限于预定义的固定类别，支持用户输入任意名词短语作为分割目标；

全实例分割：找到并分割所有符合提示的实例，在视频中，还能保持不同帧之间的身份一致性；

多模态提示：支持多种提示输入，包括文本提示、视觉提示，以及两者结合的方式；

用户交互：允许用户通过交互进行分割结果的精细优化。

新架构设计

SAM 3为实现PCS设计了新的架构。

主要是在检测与分割模块上，SAM 3的检测器基于DETR（Deformable Transformer）架构，能够根据语言和视觉提示生成实例级的检测结果。

同时，引入了Presence Head模块，解耦物体的识别（是什么）和定位（在哪里）任务——

在传统对象检测框架中，模型往往需要同时判断目标是否存在、位置在哪里，这可能导致冲突，尤其是在多实例分割任务中容易出问题。

Presence Head将两者分开处理，从而进一步提升了模型的检测精度。

大规模数据引擎

为了改进PCS，研究团队还专门构建了一个可扩展的数据引擎，生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集。

数据引擎由多阶段构成，能够逐步提升数据的多样性和难度。

整个构建过程中人类和大语言模型会相互检查彼此的工作，保证高质量的同时提升了标注的效率。

SA-Co基准

为了评估模型在开放词汇分割任务中的性能，论文还提出了SA-Co（Segment Anything with Concepts）基准。

SA-Co包含214K独特概念、124K图像和1.7K视频，概念覆盖范围能达到现有基准的50倍以上。

不过需要说明的是，SAM 3对语言的处理还局限于简单的短语提示，不支持复杂的语言表达，并不具备多模态大模型的语言生成、复杂语言理解和推理能力。

实验结果

实验结果表明，SAM 3在可提示分割任务中刷新了SOTA。

在LVIS数据集的零样本分割任务中，SAM 3的准确率达到了47.0，比此前的SOTA 38.5提升不少。

在新的SA-Co基准测试中，SAM 3的表现至少比基线方法强2倍。

另外，在针对视频的PVS（Promptable Visual Segmentation）任务中，SAM 3的性能也优于SAM 2。

研究人员还把SAM 3和多模态大模型（MLLM）相结合，探索解决更复杂的任务需求。

比如分割图片中“坐着但没拿礼物盒的人”。

大模型会先拆解需求，比如先找坐着的人，再排除拿礼物盒的人，然后给SAM 3发指令。

结果显示，SAM 3+MLLM的组合比专门做推理分割的模型效果还要好，并且无需专门的数据做训练。

在H200 GPU上，SAM 3处理含100多个实体的单张图像只需要30ms的时间。在视频任务中，推理延迟随着目标数量线性增加，能在约5个并发目标的情况下维持接近实时的性能。

不过，论文也指出，SAM 3难以通过零样本的方式，将能力泛化到如医疗图像、热成像之类的细分领域。

视频分割任务中，遇到多目标场景，模型的实时性能会下降，需要多GPU并行处理。

论文地址：https://openreview.net/forum?id=r35clVtGzw

来源：https://36kr.com/p/3507076060454021

上一篇双十一延长至20天，即时零售成电商新增长引擎，满足多元人群需求 下一篇诺奖成果实现芯片级应用：突破性技术赋能下一代计算

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-07

谷歌升级Google Cloud机密计算产品

IT之家 7 月 6 日消息，谷歌宣布对旗下 Google Cloud 机密计算（Confidential Computing）产品进行升级，新增基于英伟达 Blackwell GPU 的机密虚拟机、开源 AI 提示词加密工具 Prompt Encryption SDK，同步升级 Confident

科技数码 · 2026-07-07

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

谷歌在大模型竞赛中憋出一张重磅底牌。据泄露信息，Gemini 3 5 Pro将于7月17日正式发布，其前端与视觉代码生成能力据称出现跨越式跃升，在多项测试中压制Anthropic的Fable 5，但在硬核推理与复杂工程任务上仍落后于对手。这款姗姗来迟的旗舰模型背后，是一次更为彻底的技术重构。据科技媒

科技数码 · 2026-07-07

年电池续航最长的荣耀手机别错过

在挑选2026年电池续航最长的手机时，许多人关注的不仅仅是实验室测试中的几分钟优势，更看重一天高强度使用后还能剩下多少电量。按照这个标准来看，荣耀X80 Pro Max确实很有代表性，它将大容量电池与真实日常场景紧密结合，是该需求下非常值得优先考虑的一款机型。荣耀X80 Pro Max直接搭载了一块

科技数码 · 2026-07-07

年高性价比手机推荐同预算选机更看重长期体验

在2026年性价比高的手机推荐榜单中，同价位机型往往更看重长期使用的综合体验。如果仅仅追求低价，很容易忽视续航、耐用性、屏幕素质与通信质量这些日常高频使用的核心维度。荣耀X80 Pro Max的主要竞争力，在于将11000mAh超大电池、军工级防护、万级亮度屏幕以及AI智能体验，全部集成到2000元

科技数码 · 2026-07-07

小米17系列销量超550万台 Ultra版约23.07万部

探讨小米17系列最新销量表现。据数码博主曝光的行业追踪数据，截至2026年第26周（即6月22日至6月28日），小米17系列全系累计销量已成功突破550万台大关。具体数据方面，系列总销量约为554 01万台。其中，定位顶配的小米17 Ultra贡献了约23 07万部。值得关注的是，面向中端市场的1