首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
新加坡国立大学推出SAM2S:手术视频分析如追踪电影主角般简单

新加坡国立大学推出SAM2S:手术视频分析如追踪电影主角般简单

热心网友
23
转载
2026-01-17


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由新加坡国立大学刘昊峰、王子岳、Sudhanshu Mishra等研究团队,联合谢菲尔德大学高明琦共同完成的突破性研究,于2025年11月发表在计算机视觉领域的顶级会议上。研究编号为arXiv:2511.16618v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

想象你正在观看一部紧张刺激的手术纪录片,画面中医生的手术器械在复杂的人体内部灵活穿梭,就像电影中的主角在迷宫般的场景中前进。对于我们普通观众来说,可能很难准确追踪这些器械的每一个动作,更别说分析它们的运动轨迹了。但是,如果有一种智能系统能够像电影特效一样,自动识别并追踪画面中的每一个重要物体,那该有多神奇?

新加坡国立大学的研究团队就开发出了这样一套系统,他们称之为SAM2S。这套系统最令人惊叹的地方在于,它能够在长达几个小时的手术视频中,始终准确地追踪医生的每一件手术器械和人体组织,就像给每个"演员"都配备了一个专属的摄像师。

在传统的视频分析技术中,大多数系统都像是近视眼,只能看清眼前几秒钟的画面。一旦目标物体暂时消失在画面中,比如手术器械被血液遮挡或者移出视野,系统就会"失忆",再次出现时往往认不出来,就像换了个陌生人一样。这种问题在手术视频中尤其严重,因为手术过程通常持续数小时,期间会有大量的遮挡、光线变化和器械更换。

SAM2S的创新就像是给这个"近视眼"配上了一副神奇的眼镜,不仅能看得更远更清楚,还拥有了超强的记忆力。研究团队首先构建了一个名为SA-SV的庞大数据库,这就像是为系统准备了一本超厚的"手术视频教科书"。这本"教科书"包含了572个不同类型的手术视频,总共61,000多帧画面,涵盖了胆囊切除术、结肠镜检查、妇科手术等8种主要手术类型。

更重要的是,研究团队还为SAM2S开发了三项核心技能。第一项技能叫做DiveMem,可以理解为"多样化记忆机制"。就像一个经验丰富的侦探,不仅会记住案件中的关键线索,还会特意保留那些看似不重要但可能关键时刻派上用场的细节。传统系统往往只记住最近看到的几个画面,而DiveMem会智能地选择那些最具代表性和差异化的画面存入长期记忆,确保即使目标物体消失很久后再次出现,系统也能立刻认出来。

第二项技能是TSL(时间语义学习),这就像是教会系统理解每种手术器械的"身份证"。手术器械虽然种类繁多,但每一类都有自己独特的形状和功能特征。TSL技能让系统不仅能从外观上识别器械,还能理解它们的语义含义,比如明确区分手术剪刀和止血钳,即使它们在某个角度看起来很相似。

第三项技能ARL(模糊性适应学习)则解决了一个非常实际的问题。不同医院、不同国家的医生在标注手术视频时可能会有细微差别,就像不同的人对同一个物体的轮廓描绘可能略有差异。ARL技能让系统能够容忍这些不一致性,不会因为训练数据中的微小差异而产生困惑。

在实际测试中,SAM2S的表现确实令人印象深刻。研究团队使用了一个名为"J&F评分"的评估标准,这个评分综合考虑了识别的准确性和边界的精确度,满分是100分。传统的SAM2系统在手术视频上只能得到63.32分,而SAM2S则达到了80.42分,提升幅度超过17分。更重要的是,SAM2S能够以每秒68帧的速度进行实时处理,这意味着它可以在手术进行的同时提供即时分析,而不需要事后处理。

为了验证系统的长期追踪能力,研究团队特意测试了一些超长时间的手术视频,其中最长的一个片段持续了30分钟,相当于1800多帧画面。在这样的超长视频中,SAM2S依然能够准确追踪目标对象,而传统系统往往在几分钟后就开始出现明显错误。

这项研究的意义远不止于技术层面的突破。在实际应用中,SAM2S可以帮助外科医生进行手术技能培训,通过精确分析手术动作来识别可能的改进点。它还可以用于手术安全监控,实时检测是否有器械遗留在患者体内,或者分析手术过程中的风险点。对于医学教育来说,这套系统能够自动生成详细的手术分析报告,帮助医学生更好地学习复杂的手术技巧。

研究团队在论文中详细描述了他们如何克服手术视频分析中的各种挑战。手术环境的复杂性远超一般场景,不仅有血液、烟雾等遮挡物,还有频繁的相机移动和缩放操作。光照条件也会因为手术灯的调整而发生变化,这些都会影响传统视频分析系统的准确性。

SAM2S通过巧妙的设计解决了这些问题。它的记忆机制不是简单地按时间顺序存储画面,而是通过计算画面之间的相似性来选择最具代表性的关键帧。当系统发现某个目标在连续5帧画面中都稳定出现时,它会将这个时刻的画面标记为候选记忆,然后从中选择与已有记忆最不相同的画面加入长期记忆库。

这种策略就像是一个摄影师在拍摄纪录片时的选择过程,不会拍摄大量重复的镜头,而是会选择那些最能代表不同场景和角度的关键画面。通过这种方式,SAM2S能够在有限的存储空间内保存最有价值的信息,确保长期追踪的准确性。

在语义理解方面,SAM2S采用了一种类似于语言学习的方法。系统不仅学习识别手术器械的视觉特征,还学习理解它们的文本描述。这就像是同时学习看图识字和阅读理解,两种能力相互补充,让识别结果更加准确可靠。系统通过对比学习的方式,将视觉特征和文本描述关联起来,形成更加丰富的语义理解能力。

对于注释不一致的问题,SAM2S采用了一种"柔性学习"的策略。传统的机器学习系统通常要求训练数据具有绝对准确的标注,就像考试中的标准答案一样严格。但在实际的医学图像中,不同专家对同一个区域的边界判断可能会有细微差别,这是完全正常的现象。SAM2S通过引入高斯平滑处理,将这种硬性的边界要求转换为更加灵活的概率分布,让系统能够适应这种正常的变异性。

研究团队还进行了大量的对比实验来验证SAM2S的有效性。他们不仅与原版的SAM2系统进行了比较,还测试了多种最新的视频分析方法,包括SAM2Long、DAM4SAM、SAMURAI等改进版本。实验结果显示,无论是在短期追踪还是长期追踪任务中,SAM2S都表现出了明显的优势。

特别值得注意的是,SAM2S在跨手术类型的泛化能力测试中也表现出色。研究团队故意选择了一些在训练过程中完全没有见过的手术类型进行测试,比如肾脏切除手术。即使面对这些全新的场景,SAM2S依然能够准确识别和追踪目标对象,这说明系统确实学到了通用的视觉理解能力,而不是简单的模式记忆。

从技术实现的角度来看,SAM2S保持了良好的计算效率。在512像素分辨率下,系统能够达到每秒68帧的处理速度,完全满足实时应用的需求。相比之下,一些追求更高精度但计算复杂度更大的方法,虽然在准确性上可能略有优势,但处理速度只有每秒20多帧,无法满足实时处理的要求。SAM2S在准确性和效率之间找到了很好的平衡点。

研究团队还特别关注了系统在不同提示方式下的表现。在实际使用中,用户可能通过不同的方式来指定需要追踪的目标,比如点击、框选或者提供初始掩膜。实验结果显示,SAM2S在所有这些不同的交互方式下都能保持稳定的高性能,这为实际应用提供了很大的灵活性。

这项研究的另一个重要贡献是SA-SV数据集的建立。这个数据集是目前最大规模的手术视频交互式分割数据集,包含了从17个不同开源数据集中精心整理和重新标注的内容。研究团队花费了大量的时间和精力来确保数据质量,仅仅是对CholecSeg8k数据集的修正就涉及了超过20,000个标注错误的纠正。这种严格的数据处理态度为整个研究领域提供了宝贵的资源。

说到底,SAM2S代表了人工智能在医疗辅助领域的一个重要进步。它不仅解决了手术视频分析中的技术难题,更为未来的智能医疗系统奠定了基础。随着这类技术的进一步发展和普及,我们有理由相信,未来的手术室将变得更加智能和安全,医生们将获得更强大的技术支持来挽救更多的生命。这项研究虽然看起来很技术性,但它最终指向的是一个更加美好的医疗未来,在那里,技术真正成为了医生和患者的得力助手。对于关心医疗技术发展的读者来说,SAM2S代表的不仅仅是一项学术成果,更是人工智能造福人类健康的一个生动例证。

Q&A

Q1:SAM2S与普通的视频分析系统有什么区别?

A:SAM2S专门针对手术视频设计,具有超强的长期记忆能力。普通系统只能记住最近几秒的画面,而SAM2S能在长达数小时的手术视频中持续追踪目标物体,即使器械被血液遮挡或暂时离开画面,系统也能在重新出现时准确识别。

Q2:SA-SV数据集包含哪些内容?

A:SA-SV是目前最大的手术视频数据集,包含572个手术视频,61,000多帧画面,涵盖胆囊切除、结肠镜检查、妇科手术等8种手术类型。研究团队从17个开源数据集中精心整理,并修正了超过20,000个标注错误,确保数据质量。

Q3:SAM2S的处理速度能满足实时应用吗?

A:完全可以。SAM2S在512像素分辨率下能达到每秒68帧的处理速度,远超实时视频的要求。同时准确率达到80.42分,比传统SAM2系统提升17分以上,在速度和精度之间实现了很好的平衡。

来源:https://www.163.com/dy/article/KJE7P6K60511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美星链卫星失联,太空碎片监测成关键
科技数码
美星链卫星失联,太空碎片监测成关键

  新华社洛杉矶3月30日电(记者谭晶晶)美国太空探索技术公司30日证实,其卫星互联网系统“星链”的一颗卫星29日在轨出现异常,失去通信联络。该公司及“星链”任务团队正在调查事件原因,并将持续监测该

热心网友
03.31
华为鸿蒙新增智能追焦功能:实时跟拍亮点尽现
手机教程
华为鸿蒙新增智能追焦功能:实时跟拍亮点尽现

IT之家 1 月 31 日消息,华为近日公布鸿蒙智能追焦功能支持情况,Mate 80 Pura 80 nova 15 系列等多款机型在列。IT之家附支持智能追焦的手机型号清单:Mate 系列:Mat

热心网友
01.31
佳明27.09升级:265/965手表睡眠与步数追踪功能优化
科技数码
佳明27.09升级:265/965手表睡眠与步数追踪功能优化

IT之家 1 月 24 日消息,科技媒体 Notebook Check 昨日(1 月 23 日)发布博文,报道称佳明(Garmin)推送的 27 09 版本软件更新存在 BUG,导致 165、265

热心网友
01.24
新加坡国立大学推出SAM2S:手术视频分析如追踪电影主角般简单
科技数码
新加坡国立大学推出SAM2S:手术视频分析如追踪电影主角般简单

这项由新加坡国立大学刘昊峰、王子岳、Sudhanshu Mishra等研究团队,联合谢菲尔德大学高明琦共同完成的突破性研究,于2025年11月发表在计算机视觉领域的顶级会议上。研究编号为arXiv:

热心网友
01.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本
手机教程
腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本

腾讯生态整合新动向:QQ全面接入微信小程序 7月1日,腾讯QQ小程序开发者平台发布了一项重要更新。核心内容是,为了帮助开发者降低双端开发与维护成本,QQ将全面接入微信小程序体系。这意味着,未来用户可以直接在QQ内搜索并打开微信小程序。 对于现有的存量QQ小程序,此次调整并未“一刀切”。它们目前仍可正

热心网友
04.22
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6
手机教程
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6

下半年芯片市场巅峰对决提前揭幕 今年下半年,全球芯片市场的战火将空前炽热。两位重量级选手——联发科与高通,已经准备好亮出各自的王牌。天玑9600系列与骁龙8E6系列,这两大迭代旗舰平台的正面交锋,注定会成为今年科技行业最值得关注的戏码。 双芯策略:精准卡位旗舰市场 有意思的是,联发科这次玩了个新花样

热心网友
04.22
微信好友申请为何能通过搜索qq号添加
手机教程
微信好友申请为何能通过搜索qq号添加

在当今数字化社交的时代,微信已成为人们日常沟通交流的重要工具。不少人都发现,微信好友申请居然可以通过搜索 qq 号来添加,这背后有着诸多有趣的原因和便利之处。 一、社交关系的延续与拓展 要知道,微信与QQ同属腾讯旗下,两者之间存在着千丝万缕的联系。很多用户的社交关系其实根植于QQ时代,那些好友列表里

热心网友
04.22
高德地图如何更改定位
手机教程
高德地图如何更改定位

高德地图如何更改定位?三种方法详解及注意事项 无论是日常通勤、外出旅行还是朋友相聚,高德地图已经成了我们依赖的“导航神器”,精准定位和路线规划是其核心功能。不过,现实场景有时会有点特殊——比如,你可能需要模拟一个位置来测试应用,或者在某个游戏中“签到”,又或者只是想和朋友开个无伤大雅的玩笑。这个时候

热心网友
04.22
巧学宝app如何绑定手机号
手机教程
巧学宝app如何绑定手机号

巧学宝App绑定手机号全程指南 在巧学宝App上完成手机号绑定,是解锁其完整功能的关键一步。这个看似简单的操作,能为你后续的学习之旅带来不少实实在在的便利。那么,该如何快速搞定呢?下面这张流程图,能帮你一眼看清完整的操作路径。 第一步:进入个人中心 首先,打开你的巧学宝App。进入主界面后,注意力可

热心网友
04.22