机器学习通常被描述为一门多领域交叉学科,这一说法十分精准。它融合了概率论、统计学、逼近论、凸分析以及算法复杂度理论等多个学科的知识体系。简而言之,机器学习的核心研究目标是让计算机具备类似人类的学习能力——并非简单的机械记忆,而是真正模拟或实现人类获取知识、提升技能的过程,最终使系统能够自主进化、不断优化性能。

机器学习作为当前人工智能的核心支柱,是让计算机真正拥有智能的根本途径。若用一个比喻来理解,机器学习相当于人的“学习能力”与“发展能力”。缺少这一基础,智能化便无从谈起。
对机器学习的理解不应局限于某个单一维度,而需全面梳理其发展脉络:它如何一步步演变为今天的形态?在不同阶段,其分类与算法呈现出怎样的特征?如今又在哪些实际场景中落地应用?接下来,我们将从以下几个角度进行深入探讨。
一、机器学习的发展历程
机器学习的演进与人工智能的发展密不可分,可以说是AI研究不断深化的必然产物。
人工智能的研究历史呈现出一条清晰的路径:最初聚焦于“推理”,随后转向“知识”,最终落脚于“学习”。以下便是这三个关键时期。
推理期(1950s~1970s)
早期研究者思路直接:只要赋予机器逻辑推理能力,就能实现智能。代表性成果包括A. Newell和H. Simon开发的“逻辑理论家”程序,以及后来的“通用问题求解”程序。这些工作在当时引起了轰动。例如,“逻辑理论家”在1952年成功证明了罗素与怀特海经典著作《数学原理》中的38条定理,到1963年更完成了全部52条定理的证明——其中定理2.85的证明甚至比原著作者更为精妙。A. Newell与H. Simon因此荣获1975年图灵奖。不过,随着研究的深入,人们逐渐认识到仅凭逻辑推理远远不够。E.A. Feigenbaum等人提出,要使机器真正具备智能,必须让它拥有“知识”。
知识期(1970s~1980s)
这一时期涌现了大量专家系统,并在多个领域取得了实质性成果。E.A. Feigenbaum作为“知识工程”之父,于1994年获得图灵奖。然而,专家系统遭遇了严重的“知识工程瓶颈”——让人类总结自身知识并逐一传授给计算机,这一过程极其困难。于是,研究者开始思考:如果机器能够自主学习知识,情况是否会大为改观?
学习期(1980s~现在)
从这一时期开始,机器学习作为独立学科正式登场,并迅速进入快速发展与爆发阶段。事实上,早在1950年,图灵在其提出图灵测试的论文中就已提及机器学习的可能性。20世纪50年代也出现了早期研究,主要集中在基于神经网络的连接主义学习领域,例如F. Rosenblatt的感知机与B. Widrow的Adaline。发展至今,机器学习经历了持续迭代与升级,正迎来我们所感受到的“百花齐放”时代。
二、机器学习的研究现状
作为人工智能的关键核心技术,机器学习正获得前所未有的关注,发展速度令人瞩目。深入理解其现状与竞争格局,有助于为企业战略布局和相关产业政策提供科学依据。
基于DII与WOS数据库,从发展阶段、热点核心领域、主要竞争国家三个维度分析,可以观察到若干显著趋势:当前机器学习技术正处于快速成长期,我国同样处于高速发展轨道;不过,我国在技术结构布局方面仍存在短板。美国的专利活动最为活跃,但我国也属于技术活跃者;而在专利质量方面,我国与美国之间仍有明显差距。值得关注的是,互联网企业在推动机器学习发展中扮演了重要角色。当前热点领域涵盖智能诊断、自动驾驶仪、教育辅助、语音识别、计算机视觉等;核心领域则仍需持续深耕。
三、机器学习的分类
基于学习策略,机器学习可分为模拟人脑的机器学习与直接采用数学方法的机器学习;基于学习方法,则可分为归纳学习、演绎学习、类比学习与分析学习。不同的分类方式对应着不同的切入视角与理解逻辑。
四、机器学习的常见算法
算法是机器学习的核心工具,以下盘点几种最常见且最具代表性的方法。
1. 线性回归
在统计学与机器学习中,线性回归大概是最广为人知且易于理解的算法。预测建模的核心目标是尽可能降低模型误差,即使需要牺牲部分可解释性。线性回归模型由一个方程式构成,它会为每个输入变量寻找对应的权重系数,并用这些系数描述出一条能够最佳拟合输入变量与输出变量之间关系的直线。
2. Logistic回归
Logistic回归是另一个从统计学借鉴而来的重要工具,也是二分类问题的首选方法。其目标与线性回归类似——为每个输入变量确定权重系数值,但区别在于,它的输出会通过一个名为“logistic函数”的非线性函数进行转换。该函数形状像大写字母“S”,能将任意值映射到0到1之间。实际应用中,我们设定一个阈值(例如0.5),小于该值归为一类,大于该值归为另一类,从而完成分类任务。
3. 线性判别分析(LDA)
Logistic回归仅适用于二分类;当面对两个以上类别时,线性判别分析便派上用场。LDA是线性分类技术中非常经典的一种选择。
4. 分类和回归树
决策树是一类极为重要的预测建模算法。一棵决策树可表示为二叉树,与计算机专业中学习的二叉树在本质上并无区别。每个节点代表一个输入变量及基于该变量的一个分叉点,通过多次分割完成对数据的划分。
5. 朴素贝叶斯
朴素贝叶斯是一种简单但功能强大的预测建模算法。其核心在于两个可直接从训练数据中计算得出的概率:数据属于每一类的概率,以及给定每个x值时每个类的条件概率。计算完成后,可通过贝叶斯定理对新数据进行预测。若数据为实值型,通常会假设其符合高斯分布(钟形曲线),从而使概率估计变得更加便捷。
6. K最近邻算法(KNN)
KNN算法极为简单,其模型表示就是整个训练数据集本身。对新数据点的预测,通过在整个训练集中搜索与它最相似的K个实例(近邻),并对它们的输出变量进行汇总完成。回归问题取均值,分类问题取众数。关键因素在于如何确定数据间的相似度。若特征尺度一致,最直接的度量方式是欧几里得距离。
7. 学习向量量化(LVQ)
KNN存在一个明显短板:每次预测都需要处理整个训练数据集。LVQ算法则允许有选择地只取所需的训练实例数量,并精确地学习这些实例。
8. 支持向量机(SVM)
SVM或许是当前被讨论和使用最为广泛的算法之一。其核心是寻找一个“超平面”——在二维空间中就是一条直线——将输入变量空间按类别(例如类0或类1)进行最优分割。SVM的学习算法会试图找到一个能使类别划分最为清晰的超平面。
9. 袋装法和随机森林
随机森林是目前最流行、最强大的机器学习算法之一,属于集成学习范畴。自助法是一种通过采样来估计某个量(例如均值)的统计方法。在随机森林中,算法通过引入随机性进行次优分割,最终将多个弱模型集成为一个强模型。
10. Boosting和AdaBoost
Boosting是一种利用大量弱分类器构建强分类器的集成技术。其实现过程是:先用训练数据构建一个模型,再构建第二个模型来修正第一个模型所犯的错误,如此迭代,直到模型完美预测训练集或加入的模型数量达到上限。
五、机器学习的应用
模式识别的应用领域十分广泛——计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎——而这些领域正是机器学习发挥巨大作用的舞台,二者之间的关联正日益紧密。
