深度学习作为机器学习的重要分支,不仅能自动学习特征与任务之间的关联,还能从简单特征中进一步提炼出复杂特征。自2012年以来,深度学习的热度迅速攀升,其中最典型的方法便是深度神经网络——它模仿大脑神经元的层次结构,以识别数据中的复杂模式。追根溯源,深度学习的前身是人工神经网络(ANN),其历史可追溯至20世纪50年代。可以说,当前深度学习领域最成熟的技术,本质上依然是人工神经网络。

1958年,Rosenblatt提出了感知器算法。该算法利用MCP模型对输入的多维数据进行二分类,并能借助梯度下降法从训练样本中自动学习并更新权值。1962年,这一方法被证明能够收敛,理论与实践的成果引发了第一次神经网络研究热潮。然而好景不长——1969年,美国数学家、人工智能先驱Minsky在其著作中指出,感知器本质上是线性模型,仅能处理线性分类问题,甚至连最简单的XOR(异或)问题都无法正确分类。这一论断几乎宣判了感知器的“死刑”,神经网络的研究因此陷入了近20年的停滞期。
直到20世纪80年代,Hinton于1986年发明了适用于多层感知器的反向传播算法,并采用Sigmoid函数进行非线性映射,从而有效解决了非线性分类与学习问题,掀起了神经网络的第二次热潮。1998年,Yan LeCun等人提出了深度卷积神经网络LeNet-5——该网络引入了卷积层、下采样层和全连接层,成为现代大多数深度卷积神经网络的雏形。LeNet-5在手写数字识别任务上取得了巨大成功。然而,由于神经网络一直缺乏严格的数学理论支撑,随后再次陷入低潮期。此后的研究重点转向了决策树、SVM、朴素贝叶斯等统计学方法,它们成为机器学习领域的主流。
2006年,Hinton等人在研究中正式提出了深度学习的概念。此后,在众多研究者的共同努力下,随机梯度下降法、Dropout等网络优化策略相继问世。尤其是GPU并行计算技术解决了深度网络参数多、优化时间长的难题,全球范围内掀起了深度学习的研究热潮,并持续至今。十多年来,诸多经典深度学习架构被陆续提出,例如典型的深度卷积神经网络AlexNet、循环神经网络(RNN)、长短期记忆网络(LSTM)、生成式对抗网络(GAN)等。
