深度学习与传统机器学习方法的本质区别_AI热点日报

先从近十年说起。人工智能的几个核心领域——语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体——都因为一项技术而取得了质的飞跃。这项技术的核心，就是我们今天的主角：神经网络。神经网络的起源其实可以追溯到20世纪40年代，在八九十年代它还火过一阵。它的初衷挺有意思——模仿人脑的认知机制来解决各种机器学习难题。1986年，鲁梅尔哈特、欣顿和威廉姆斯在《自然》上发表了那篇著名的反向传播算法，用于训练神经网络。直到今天，这套算法仍然是深度学习领域广泛使用的基础。

深度学习和其他机器学习方法有何不同

不过，那个年代的神经网络有个绕不开的坎——参数太多，动不动就发生过拟合。什么意思呢？就是在训练集上准确率高得吓人，一到测试集就露馅了。原因也很简单：当时的训练数据集规模太小，计算资源也有限，训练一个不算大的网络都得花很长时间。和其他模型放在一起比，神经网络在识别准确率上并没体现出什么明显的优势。

于是，大多数研究者转向了支持向量机、Boosting、最近邻这类分类器。这些分类器用一个或两个隐含层的神经网络也能模拟，所以后来被统一叫作“浅层机器学习模型”。在这种模式下，不同的任务往往需要设计不同的系统，再用不同的手工特征来解决问题。比如物体识别用SIFT（尺度不变特征转换），人脸识别用LBP（局部二值模式），行人检测用HOG（方向梯度直方图）。

转折点在2006年。欣顿提出了新的训练思路，让深度学习在多个领域大放异彩，重新吸引了全世界的目光。神经网络为什么能“梅开二度”？原因主要有三个。第一，大规模训练数据的出现，很大程度上缓解了过拟合问题。比如ImageNet，光训练集就包含了上百万张标注图像。第二，计算机硬件的飞速发展给深度学习提供了强大的算力支持——一个GPU芯片可以集成上千个核，训练大规模神经网络不再是天方夜谭。第三，网络的模型设计和训练方法本身也进步了。比如非监督的逐层预训练，能让网络在反向传播全局优化之前，参数先处在一个不错的起始点，最终收敛到一个较好的局部极小值。

深度学习在计算机视觉领域最炸裂的突破，发生在2012年。欣顿的研究小组用深度学习拿下了ImageNet图像分类比赛的冠军。有意思的是，第2到第4名用的都是传统的计算机视觉方法加手工特征，他们之间的准确率差距不超过1%。而欣顿他们家的准确率，直接把第二名甩开了10%以上。这在整个计算机视觉领域引起了巨大震动，深度学习的热潮就此引爆。

人脸识别是计算机视觉里的另一座高地。研究数据表明，如果只给人看人脸的中心区域（不包括头发），人眼在户外脸部检测数据库LFW上的识别率是97.53%。如果给看整张脸包括背景和头发，人眼能到99.15%。而经典的Eigenface算法在LFW上只有60%的识别率。非深度学习算法里，最高能到96.33%。现在深度学习能到什么水平？99.47%。

欣顿小组拿下ImageNet冠军之后6个月，谷歌和百度都发布了基于图像内容的新一代搜索引擎。两家都用了深度学习模型，在自己的数据上跑了一遍，发现图像搜索的准确率大幅度提高。百度在2012年成立深度学习研究院，2014年又在硅谷建了新实验室，请来斯坦福的吴恩达担任首席科学家。Facebook则是在2013年底于纽约成立了新的人工智能实验室，把卷积网络的发明人Yann LeCun请来坐镇。2014年1月，谷歌不惜血本，花了4亿美元收购了深度学习创业公司DeepMind。2013年《麻省理工科技评论》干脆把深度学习列为了当年世界十大技术突破之首。

深度学习有何与众不同？

说了这么多，深度学习和传统方法究竟差在哪？为什么它能在这么多领域取得成功？

特征

最根本的区别在于：深度学习所用的特征，是从大数据中自动学到的，而不是靠人手工设计出来的。好的特征能直接决定一个模式识别系统的性能上限。过去几十年，手工特征一直是主流，但它的短板也很明显——主要依赖设计者的先验知识，很难利用大数据带来的红利。而且手工调参能容纳的参数数量非常有限。深度学习则不同，它可以从数据中自动学习特征表示，参数可以成千上万。

举个例子，手工设计一套有效的特征，往往要花5到10年。但深度学习对新应用，只需要从训练数据中很快学到一套新的有效特征表示。

一个模式识别系统通常包含特征和分类器两部分。在传统方法中，这两部分是分开优化的。但在神经网络的框架下，特征表示和分类器是联合优化的一体化系统，能最大程度地让二者协同工作。

2012年欣顿参加ImageNet比赛用的卷积网络，其特征表示从上百万样本中学习到了6000万个参数。从ImageNet上学到的特征表示泛化能力极强，可以直接迁移到其他数据集和任务上，比如物体检测、跟踪和检索。计算机视觉领域另一个著名的比赛叫PASCAL VOC，它的训练集规模较小，不适合直接训练深度学习模型。但有人把从ImageNet上学到的特征表示拿过来，用在PASCAL VOC的物体检测上，检测率直接提升了20%。

那么，什么是好的特征？一幅图像中，各种复杂的因素往往非线性地交织在一起。人脸图像里包含身份、姿态、年龄、表情、光线等多种信息。深度学习的关键在于通过多层非线性映射，把这些因素成功解耦。比如在深度模型的最后一个隐含层里，不同的神经元可能代表不同的因素。这时候把这个隐含层当做特征表示，人脸识别、姿态估计、表情识别、年龄估计就会变得异常简单——因为各个因素之间变成了线性关系，不再彼此干扰。

深层结构的优势

深度学习模型里的“深”，意味着网络的层数很多。而支持向量机、Boosting这些常用的机器学习模型都是浅层结构。一个三层的神经网络（输入层、输出层、一个隐含层）理论上可以近似任何分类函数。既然如此，要深层干啥？

研究发现，如果模型的深度不够，完成特定任务所需要的计算单元会呈指数级增加。也就是说，虽然浅层网络也能表达同样的分类函数，但所需的参数和训练样本要多得多。浅层模型提供的是局部表达——把高维图像空间分成若干局部区域，每个区域至少存储一个从训练数据学来的模板。测试的时候，把新样本和这些模板逐一匹配，根据匹配结果预测类别。支持向量机里的模板是支持向量，最近邻里的模板就是所有训练样本。随着分类问题的复杂化，图像空间被越切越碎，参数和样本的需求自然水涨船高。现在很多深度模型的参数量已经很大了，但如果换成浅层网络，要达到同样的拟合效果，需要的参数量可能要高出几个数量级，根本没法实现。

深度模型之所以能减少参数，关键在于它可以重复利用中间层的计算单元。还是拿人脸识别来说，深度学习可以对人的特征进行分层表达：最底层从原始像素开始学习滤波器，刻画局部的边缘和纹理；中层滤波器把各种边缘组合起来，描述不同的人脸器官；最高层则描述整个脸部的全局特征。

深度学习提供的是分布式特征表示。在最高的隐含层，每个神经元就像一个属性分类器（比如性别、人种、头发颜色）。每个神经元把图像空间一分为二，N个神经元组合起来就能表达2的N次方个局部区域。如果换成浅层模型，光表达这些区域就需要至少2的N次方个模板。这就是深度模型表达能力更强、效率更高的奥秘。

提取全局特征和上下文信息的能力

深度模型不仅学习能力强、特征表达效率高，还有一个更重要的优点——它可以从像素级的原始数据一路提取到抽象的语义概念。这使得它在提取全局特征和上下文信息方面有着突出的优势，给分割、关键点检测这些传统视觉难题带来了全新的解决思路。

把人脸图像分割举个例子。要预测每个像素属于哪个脸部器官（眼睛、鼻子、嘴），传统做法是在该像素周围取一个小区域，提取纹理特征（比如LBP），然后用支持向量机这样的浅层模型做分类。因为局部区域包含的信息有限，这种方法容易出错，所以分割完之后还得额外加平滑约束和形状先验。

但人眼即使在存在局部遮挡的情况下，也能根据脸部其他区域的信息来推测被遮部分是什么。这说明全局和上下文信息对局部判断至关重要。而在基于局部特征的方法中，这些信息在最开始就被丢掉了。理想的方案是：直接把整幅图像作为输入，让模型预测整张分割图。这样一来，既用到了上下文信息，数据处理过程中也隐式地嵌入了形状先验。但因为整幅图像内容过于复杂，浅层模型很难有效捕捉全局特征。深度学习的出现，让这条路真正走通了——在人脸分割、人体分割、人脸图像配准和人体姿态估计等各个方面都取得了成功。

联合深度学习

有些研究计算机视觉的学者把深度学习模型当成黑盒子来看，这种看法其实不够全面。传统计算机视觉系统和深度学习模型之间其实存在着密切联系。利用这种联系，可以提出新的深度模型和训练方法。用于行人检测的联合深度学习就是这样一个成功案例。

一个典型的计算机视觉系统包含多个关键模块。比如行人检测器，就有特征提取、部件检测器、部件几何形变建模、部件遮挡推理、分类器等模块。在联合深度学习中，深度模型的各个层可以和视觉系统的这些模块建立一一对应的关系。如果视觉系统中的某个关键模块在现有深度学习模型中没有与之对应的层，那它就可以启发我们提出新的深度模型。大量物体检测的研究表明，对物体部件的几何形变进行建模能有效提高检测率，但常用的深度模型里没有对应的层。所以联合深度学习及其后续工作都提出了新的形变层和形变池化层来实现这一功能。

从训练方式来看，计算机视觉系统的各个模块传统上是逐一训练或手工设计的。而在深度模型的预训练阶段，各个层也是逐一训练的。如果能建立起计算机视觉系统和深度模型之间的对应关系，那么在视觉研究中积累的经验就可以为深度模型的预训练提供指导。这样预训练得到的模型，一开始就能达到和传统系统可比的结果。在此基础上，深度学习再通过反向传播对所有层进行联合优化，让层与层之间的协作达到最优，使整个网络的性能实现质的飞跃。

深度学习在物体识别中的应用

ImageNet图像分类

深度学习在物体识别领域最亮眼的成绩，非ImageNet ILSVRC挑战中的图像分类任务莫属。传统计算机视觉方法在这个测试集上最低的错误率是26.172%。2012年，欣顿研究小组用卷积网络把错误率直接降到了15.315%。这个网络后来被叫作AlexNet。和传统卷积网络相比，AlexNet有三点与众不同。

首先，它用了dropout训练策略——训练过程中把输入层和中间层的一些神经元随机置零。这相当于模拟了噪声对输入数据的各种干扰，让一些神经元对一些视觉模式“故意漏检”。Dropout让训练过程收敛得更慢，但得到的模型更加鲁棒。其次，AlexNet采用整流线性单元作为非线性激活函数。这不仅大大降低了计算复杂度，还让神经元的输出具有稀疏特性，对各种干扰更加鲁棒。第三，通过对训练样本做镜像映射和加入随机平移扰动，AlexNet产生了更多的训练样本，有效减少了过拟合。

到了2013年，ILSVRC排名前20的小组用的全是深度学习。当年的获胜者是纽约大学Rob Fergus的研究小组，他们采用的深度模型还是卷积网络，但进一步优化了结构，把错误率降到了11.197%。这个模型叫Clarifai。

ILSVRC 2014的冠军GooLeNet把错误率降到了6.656%。GooLeNet最大的特点是把卷积网络的深度增加到超过20层，这在以前是难以想象的。但很深的网络给反向传播带来了麻烦——预测误差从最顶层传到底层时已经小得可怜，很难驱动底层参数更新。GooLeNet的策略是把监督信号直接加到多个中间层，这意味着中间层和底层的特征表示也得能对训练数据进行准确分类。如何有效训练很深的网络模型，仍是未来研究的一个重要课题。

话说回来，虽然深度学习在ImageNet上大获成功，但很多实际应用的训练集规模很小。这种情况下怎么用深度学习？三种方法可以参考。第一，把ImageNet上训练好的模型当起点，用目标训练集和反向传播继续调优，让模型适应特定应用。这时的ImageNet扮演的是预训练的角色。第二，如果目标训练集不够大，可以把底层网络参数固定住，沿用ImageNet上的结果，只更新上层。因为底层参数最难更新，而从ImageNet学到的底层滤波器往往能描述通用的局部边缘和纹理信息，对一般图像有较好的普适性。第三，直接用ImageNet训练好的模型，把最高隐含层的输出当做特征表达，替代手工设计的特征。

人脸识别

人脸识别是深度学习在物体识别上的另一重大突破。人脸识别最大的挑战在于，如何区分因光线、姿态、表情等因素引起的类内变化，和因身份不同引起的类间变化。这两类变化的分布是非线性且极其复杂的，传统的线性模型很难把它们有效分开。深度学习的目标就是通过多层非线性变换，得到一种新的特征表示——尽可能多地去掉类内变化，保留类间变化。

人脸识别分为两种任务：人脸确认和人脸辨识。人脸确认，是判断两张照片是不是同一个人，属于二分类问题，随机猜对的概率是50%。人脸辨识，是把一张人脸图像归到N个类别之一，类别由身份定义，这是一个多分类问题，难度随类别数增大而增大，随机猜对的概率只有1/N。两种任务都可以通过深度模型学习人脸特征表示。

2013年，有学者用人脸确认任务作为监督信号，用卷积网络学习人脸特征，在LFW上拿到了92.52%的识别率。这个成绩虽然和后来的深度学习方法相比不算高，但已经超过了大多数非深度学习算法。不过，人脸确认作为一个二分类问题，用它来学习人脸特征的效率较低，容易在训练集上发生过拟合。人脸辨识是更具挑战性的多分类问题，不容易过拟合，更适合用深度模型学特征。另一方面，人脸确认中每对训练样本只被标注成两类之一，所含信息量小；人脸辨识里每个训练样本都被标注成N类之一，信息量更大。

2014年CVPR上，DeepID和DeepFace都采用人脸辨识作为监督信号，在LFW上分别取得了97.45%和97.35%的识别率。它们用卷积网络预测N维标注向量，把最高的隐含层作为人脸特征。这一层在训练过程中要区分大量的人脸类别（DeepID里就有1000类），因此包含了丰富的类间变化信息，泛化能力很强。虽然训练时用的是辨识任务，但学到的特征可以用于确认任务，也能识别训练集里没出现过的新人。LFW测试的恰恰是确认任务，且测试集和训练集的人物身份完全不重合。

通过人脸辨识任务学到的特征会包含较多的类内变化。DeepID2联合利用人脸确认和人脸辨识作为监督信号，得到的特征在保持类间变化的同时，最小化了类内变化，把LFW上的识别率提高到了99.15%。DeepID2用Titan GPU提取一张人脸图像的特征只需要35毫秒，还能离线进行。经过PCA压缩后，最终得到80维的特征向量，可用于快速的人脸在线比对。后续的DeepID2+通过扩展网络结构、增加训练数据、在每一层都加入监督信息，最终在LFW达到了99.47%的识别率。

有人觉得深度学习的成功就是用大量参数的复杂模型去硬拟合数据，其实远不是这么简单。DeepID2+的成功还得益于它所拥有的很多重要且有趣的特性：它的最上层神经元响性是中度稀疏的，对人脸身份和各种人脸属性有很强的选择性，对局部遮挡也表现出很强的鲁棒性。以前要想得到这些属性，往往得给模型加各种显式的约束，而DeepID2+通过大规模学习自动拥有了这些属性。背后的理论分析，值得未来进一步研究。

深度学习在物体检测中的应用

物体检测比物体识别更难。一幅图像里可能包含多个属于不同类别的物体，检测任务需要同时确定每个物体的位置和类别。2013年ImageNet ILSVRC比赛新增了物体检测任务，要求在4万张互联网图片中检测200类物体。当年的冠军用的是手工设计的特征，平均物体检测率（mAP）只有22.581%。到了2014年，深度学习把这个数字提到了43.933%。较有影响力的工作包括RCNN、Overfeat、GoogLeNet、DeepID-Net、network in network、VGG和spatial pyramid pooling in deep CNN。RCNN首次提出了被广泛采用的基于深度学习的物体检测流程：先用非深度学习的方法（比如selective search）提出候选区域，再用深度卷积网络从候选区域提取特征，最后用SVM等线性分类器把区域分为物体和背景。DeepID-Net进一步完善了这个流程，让检测率大幅提升，并且对每个环节的贡献做了详细的实验分析。深度卷积网络结构的设计也至关重要——一个能提高图像分类准确率的网络结构，通常也能显著提升物体检测器的性能。

深度学习的成功在行人检测上也得到了印证。在最大的行人检测测试集Caltech上，广泛采用的HOG特征和可变形部件模型平均误检率是68%。而目前基于深度学习检测的最好结果已经降到了20.86%。最新研究中，很多被证明行之有效的物体检测方法都用到了深度学习。比如联合深度学习提出的形变层，负责对物体部件间的几何形变建模；多阶段深度学习可以模拟物体检测常用的级联分类器；可切换深度网络能表达物体各个部件的混合模型；还有研究者通过迁移学习，把一个深度模型行人检测器自适应到新的目标场景。

深度学习用于视频分析

深度学习在视频分类上的应用还处于起步阶段，未来还有很多事情要做。描述视频的静态图像特征可以用从ImageNet上学到的深度模型，难点在于怎么描述动态特征。以往的研究对动态特征的描述，通常依赖光流估计、关键点跟踪和动态纹理。把这些信息体现到深度模型里，是个不小的难题。

最直接的做法是把视频当三维图像处理，直接在每个层学习三维滤波器。但这个思路忽略了一个关键问题：时间维和空间维的差异。另一种更简单也更有用的办法是，通过预处理计算光流场或其他动态特征的空间场分布，把它当成卷积网络的一个输入通道。也有研究工作用深度编码器以非线性方式提取动态纹理。最新的研究中，长短时记忆网络LSTM受到广泛关注，它能捕捉长期依赖关系，适合对视频中复杂的动态过程建模。

未来发展的展望

深度学习在应用领域的发展方兴未艾，未来的空间还很大。物体识别和物体检测的一个趋势是使用更大更深的网络结构。ILSVRC 2012的AlexNet只有5个卷积层加两个全连接层，到了2014年，GooLeNet和VGG都已超过20层。但网络越深，反向传播就越困难。与此同时，训练数据的规模也在迅速变大。这迫切需要研究新的算法和开发新的并行计算系统，来更有效地利用大数据训练更大更深的模型。

和图像识别相比，深度学习在视频分类中的应用远未成熟。从ImageNet训练得到的图像特征可以直接有效迁移到各种与图像相关的识别任务（如图像分类、检索、检测和分割）和不同的测试集上，泛化性能很好。但深度学习至今还没有类似的可用于视频分析的特征。要达到这个目标，不仅需要建立大规模的训练数据集（有文献最新建立了包含100万个YouTube视频的数据库），还需要研究适用于视频分析的新深度模型。训练视频分析模型的计算量也会大大增加。

在与图像和视频相关的应用中，深度模型的输出预测（比如分割图或物体检测框）往往具有空间和时间上的相关性。因此，研究具有结构性输出的深度模型也是一个重点方向。

虽然神经网络的初衷是解决一般意义上的机器学习问题，但领域知识对深度模型的设计影响很大。在与图像和视频相关的应用中，最成功的是深度卷积网络，其设计就是充分利用了图像的特殊结构。其中最重要的两个操作——卷积和池化——都来自图像相关的领域知识。如何通过研究领域知识，在深度模型中引入新的有效操作和层，对提高图像和视频识别性能具有重要意义。池化层带来了局部的平移不变性，而形变池化层在此基础上进一步描述了物体各个部分的几何形变。未来可以继续扩展，争取实现旋转不变性、尺度不变性和对遮挡的鲁棒性。

通过研究深度模型和传统计算机视觉系统之间的关系，不仅可以帮助我们理解深度学习成功的原因，还可以启发新的模型和训练方法。联合深度学习和多阶段深度学习在这方面未来还有更多的工作要做。

虽然深度学习在实践中取得了巨大成功，而且通过大数据训练得到的深度模型所体现出的特性（比如稀疏性、选择性和对遮挡的鲁棒性）很引人注目，但其背后的理论分析还有很多工作要做。比如，何时收敛？如何取得较好的局部极小点？每一层变换到底取得了哪些对识别有益的不变性，又损失了哪些信息？最近Mallat利用小波对深层网络结构做了量化分析，这是这个方向上一个重要的探索。

结语

深度模型并非黑盒子，它与传统的计算机视觉系统有着密切的联系。神经网络的各个层通过联合学习、整体优化，实现了性能的大幅提升。与图像识别相关的各种应用，也在推动深度学习在网络结构、层设计和训练方法各个方面快速发展。可以预见，在未来数年内，深度学习在理论、算法和应用上将进入全面爆发的新阶段。