Meta发布SAM 3:30秒精准分割任意物体,3D重建推动科研应用创新
meta近日在人工智能领域再度掀起波澜,正式推出第三代图像分割模型Segment Anything Models——SAM 3,并同步开放3D重建模型SAM 3D。这一技术组合不仅突破了传统图像分割的固有限制,更将应用场景从二维平面延伸至三维空间,为视频创作、机器人感知、野生动物保护等多个领域带来革新性工具。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在核心功能层面,SAM 3首次实现通过自然语言与图像示例的双重提示,精准识别、分割及追踪视频中的任意物体。用户仅需输入"条纹红色雨伞"等描述性词汇,模型即可自动定位图像或视频中所有符合条件的实例,彻底摆脱传统模型对固定标签集的依赖。为验证这一能力,meta构建了SA-Co基准数据集,涵盖21.4万个独特概念、12.4万张图像及1700个视频,其概念覆盖范围达现有基准的50倍以上。测试数据显示,SAM 3在LVIS数据集的零样本分割任务中准确率达47.0,较前代提升22%;在用户偏好测试中,其输出效果以3:1的优势领先于最强基准模型OWLv2。
技术架构方面,SAM 3引入"可提示概念分割"机制,支持短语文本、图像示例、点选、框选等多种提示方式。这种灵活性使其既能处理"坐着但没有拿礼物盒的人"等复杂推理任务,也可应对罕见或难以用文字描述的视觉概念。当与多模态大语言模型协同工作时,SAM 3在ReasonSeg和OmniLabel等需要推理的分割基准测试中表现优异,且无需针对特定数据集进行额外训练。
数据标注效率的飞跃是SAM 3的另一大突破。meta开发的创新数据引擎将模型、人类标注者与AI系统结合,形成闭循环反馈机制。对于图像中不存在的概念标注,该系统速度较纯人工提升5倍;在细粒度领域标注中,效率亦提高36%。通过这一系统,研究团队构建了包含超400万个独特概念的训练集,其中AI标注者基于Llama 3.2v模型,在掩码质量验证等任务中达到或超越人类水平,使整体标注吞吐量翻倍。
在三维重建领域,SAM 3D系列模型树立了新标杆。其包含的SAM 3D Objects可从单张自然图像重建详细3D形状、纹理及物体布局,通过扩散捷径优化,实现几秒内完成高质量纹理重建。在人类偏好测试中,该模型以至多5:1的胜率领先其他领先方案,为机器人3D感知等实时应用提供可能。另一模型SAM 3D Body则专注于人体姿态估计,即使面对异常姿态、遮挡或多人员景,仍能通过交互式输入(如分割掩码)实现精准预测。其训练数据集涵盖800万张图像,包含罕见姿势及多样化服装场景,在多个3D基准测试中表现卓越。
实际应用层面,SAM 3已渗透至科研与商业领域。meta与Conservation X Labs合作推出的SA-FARI数据集,包含超1000个相机陷阱视频,覆盖100余个物种,每帧图像均标注边界框与分割掩码,为野生动物保护提供研究工具。海洋研究方面,FathomNet数据库开放了水下图像的定制化分割掩码及实例分割基准,助力海洋探索AI工具开发。商业领域,meta与Roboflow合作,允许用户标注数据、微调模型并部署至特定场景,同时公开微调方法供社区参考。
尽管性能显著提升,SAM 3仍存在局限性。例如,其在细粒度专业领域(如医学图像)的零样本泛化能力有限,需针对特定术语进行优化;视频追踪任务中,推理成本随物体数量线性增长,且缺乏物体间交互机制。这些挑战为后续研究指明了方向,也预示着图像分割技术仍有广阔进化空间。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





