首页 游戏 软件 资讯 排行榜 专题
首页
AI
何恺明NeurIPS 2025演讲前瞻:视觉目标检测三十年回顾与展望

何恺明NeurIPS 2025演讲前瞻:视觉目标检测三十年回顾与展望

热心网友
75
转载
2025-12-11



机器之心报道

机器之心编辑部

不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。

有一项荣誉的颁发显得格外厚重且众望所归 —— 由任少卿、何恺明、Ross Girshick 和孙剑合著的经典论文《Faster R-CNN》,摘得了「时间检验奖」 (Test of Time Award)

凡是接触过计算机视觉的人,对这个名字绝不陌生。自 2015 年发表以来,《Faster R-CNN》无疑成为了该领域最具里程碑意义的工作之一。它不仅一举奠定了现代目标检测框架的核心范式,更像是一座灯塔,深刻影响并指引了随后整整十年的视觉模型发展方向。



论文地址:https://arxiv.org/pdf/1506.01497



作为这一历史性时刻的见证与总结,何恺明在大会上发表了题为《视觉目标检测简史》 (A Brief History of Visual Object Detection)的演讲。



何恺明演讲 PPT 已经公开,可以参阅以下链接:

https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

从何恺明的演讲内容来看,这不单是一个技术汇报,更像是一部计算机如何学会「看世界」的英雄史诗,总结了 30 年来视觉目标检测的发展历程。演讲中介绍的每一个工作,都获得了不同顶会的时间检验奖,对视觉智能的发展起到了决定性的作用。

你是否好奇:为什么现在的 AI 能在一瞬间识别出照片里的猫、狗、汽车甚至它们的位置,而在十几年前这却被认为是几乎不可能的任务?



让我们跟随大神的视角,穿越回那个「原始」的时代,看看这一路是如何走来的。

原始:手工打磨的「放大镜」

在深度学习爆发之前,计算机视觉科学家们更像是「工匠」。

人脸检测的早期尝试: 早在 90 年代,科学家们就开始尝试用神经网络和统计学方法找人脸:

1996 年: Rowley 等人发表了《基于神经网络的人脸检测》(Neural Network-Based Face Detection) ,这是何恺明阅读的第一篇 CV 论文,利用早期的神经网络在图像金字塔上寻找面孔 。1997 年: Osuna 等人引入了支持向量机,发表了《用于人脸检测的 SVM》(SVM for Face Detection) ,试图在数据中画出一条完美的分类线。2001 年: 著名的Viola-Jones 框架(The Viola-Jones Framework) 横空出世。它通过简单的特征组合实现了极快的人脸检测,直到今天,很多老式相机的对焦功能还得感谢它。

特征工程的黄金时代: 既然「整张脸」难找,那就找「关键点」和「纹理」。随后的几年,特征描述符成为了主角:

1999 年: Lowe 提出了SIFT,这种「尺度不变特征变换」能在旋转、缩放的情况下依然认出物体,是当年的绝对王者。2003 年: Sivic 和 Zisserman 借鉴文本搜索,提出了「视觉词袋模型」(Bag of Visual Words) ,把图片看作一堆「视觉单词」的集合。2005 年: Dalal 和 Triggs 发明了HOG(方向梯度直方图) ,专门用来描述行人的轮廓。同一年,Grauman 和 Darrell 提出了 「金字塔匹配核」 (Pyramid Match Kernel) ,用来比较两组特征的相似度。2006 年: Lazebnik 等人进一步提出了「空间金字塔匹配」(Spatial Pyramid Matching) ,解决了词袋模型丢失空间位置信息的问题。2008 年: 特征工程的集大成者DPM(Deformable Part Model) 登场。它把物体看作一个个可变形的部件(比如人的头、手、脚),像弹簧一样连接在一起。这是传统方法的巅峰。

痛点在哪里?特征是人设计的(Hand-crafted),分类器(比如 SVM)只能在这些有限的信息上工作 。这种方法不仅慢,而且很难适应复杂的场景。

破晓:AlexNet 与 R-CNN 的「暴力美学」

2012 年,AlexNet 横空出世,深度学习证明了它提取特征的能力远超人类手工设计 。但是,怎么用它来做目标检测呢?

深度学习的惊雷:2012 年,AlexNet (Krizhevsky et al.) 在 ImageNet 竞赛中以压倒性优势夺冠。它证明了深层卷积神经网络(CNN)提取特征的能力远超人类手工设计。



R-CNN:从分类到检测 但是,怎么用 CNN 做目标检测(框出物体位置)? 2014 年,Girshick 等人提出了划时代的 R-CNN (Region-based CNN) 。它的思路很直接:

先用传统算法(Selective Search)在图上剪出约 2000 个「候选区域」 (Region Proposals)。把每个区域都扔进 CNN 提特征,再用 SVM 分类。

巅峰:Faster R-CNN 的「速度进化」

R-CNN 让每个候选框都过一遍 CNN,计算量巨大。科学家们开始思考如何复用计算。

2014 年: 何恺明团队提出了SPP-Net(Spatial Pyramid Pooling) 。它引入了空间金字塔池化层,允许神经网络处理任意大小的图片,并且只算一次全图特征,大大加速了检测。2015 年: Girshick 借鉴 SPP-Net,推出了Fast R-CNN。它引入了 RoI Pooling,把特征提取和分类回归整合到了一个网络里,不仅快,还能端到端训练。



最终的瓶颈: 即便如此,候选框(Region Proposals)依然依赖那个笨重的传统算法(Selective Search),这成为了系统的速度瓶颈。



2015 年,Faster R-CNN 的诞生:何恺明团队提出了 RPN (Region Proposal Network) 。他们从 1991 年 LeCun 等人的 「空间位移神经网络」 (Space Displacement Net) 中获得灵感,让神经网络自己在特征图上「滑动」,通过预设的 Anchor (锚点) 来预测物体可能存在的位置。

至此,目标检测的所有环节 —— 提议、特征提取、分类、回归 —— 全部被神经网络接管,实现了真正的「端到端」实时检测。速度和精度双重飞跃,计算机视觉终于迈入了实时检测的时代。

迷雾后的新世界:Transformer 与万物

Faster R-CNN 开启了一个时代,但探索从未停止。演讲的后半部分,何恺明展示了技术的洪流如何继续奔涌:

既然要快,能不能连「候选框」这个步骤都不要了?

2016 年:YOLO(You Only Look Once) 和SSD(Single Shot MultiBox Detector) 问世。它们像人类一眼看全图一样,直接输出所有物体的位置和类别,速度极快。2017 年: 为了解决单阶段检测精度低的问题(正负样本不平衡),何恺明团队提出了Focal Loss(RetinaNet) 。2017 年:Mask R-CNN惊艳亮相。它在 Faster R-CNN 的基础上加了一个分支,不仅能画框,还能像素级地把物体「抠」出来(实例分割),引入了 RoI Align 解决了像素对齐问题。2020 年:DETR(Detection Transformer) 将 Transformer 架构引入视觉。它完全抛弃了 Anchor 和复杂的后处理(NMS),用全局注意力机制重新定义了检测。2024 年:SAM(Segment Anything Model) 横空出世。它在大数据的喂养下,学会了「分割万物」,不再受限于特定的训练类别,展示了视觉大模型的雏形。



在这个「大航海时代」我们学到了什么?

我们在过去的几十年里学到了什么?

何恺明说:「Write object detection papers and win Test of Time Awards :)」(写目标检测论文然后拿到时间检验奖 :) )

演讲最后,他用一张 Nano-Banana 生成的非常有寓意的图作为结尾:一艘船驶向迷雾中的大海。



他说,科学探索就像是驶入迷雾

这里没有预先画好的的地图。我们甚至不知道终点是否存在 。

从手工特征到 CNN,再到 Transformer,每一次飞跃都是探险者在迷雾中发现的新大陆。Faster R-CNN 不仅仅是一个算法,它教会了我们:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它。

在下一个十年,计算机视觉的「圣杯」会是什么?

来源:https://www.163.com/dy/article/KGH2D65O0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南
AI
阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流

热心网友
05.15
商汤小浣熊智能助手基于自研大语言模型
AI
商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办

热心网友
05.15
MiniMax新一代智能模型矩阵全面解析与应用指南
AI
MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M

热心网友
05.15
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景
web3.0
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友
05.15
智能客服机器人解决方案:AI客服系统提升企业服务效率
AI
智能客服机器人解决方案:AI客服系统提升企业服务效率

在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友
05.15