游乐游手机版

AI 热词解释

首页/AI热词解释/热词详情

Active Learning 主动学习:让AI自己选择该学什么,大幅降低标注成本

类型:机器学习范式2026-06-01
Active Learning(主动学习)是一种机器学习策略,允许模型在训练过程中主动选择最不确定或最具信息量的数据样本,请求人工标注,从而在更少的标注样本下获得更好的模型性能。它常用于数据标注昂贵或稀缺的场景,如医疗影像、自动驾驶感知和自然语言处理。

本次查询:Active Learning

中文解释:主动学习

常见场景:数据标注成本高 / 标注样本稀缺或需要快速迭代模型的生产环境

一句话解释

主动学习是一种让机器学习模型主动挑选“最有疑问”的数据样本,并请求人工给出正确标签的训练方法。它就像学生只做自己最不懂的习题,而不是漫无目的地翻书,从而用最少的问题达到最好的学习效果。

为什么会被关注

现实世界中高质量标注数据通常昂贵且耗时,尤其医疗、金融、自动驾驶等领域,专家标注每张图或每条记录的成本可能高达数十元。主动学习通过让模型自主选择高价值样本,往往能减少70%以上的标注工作量,同时保持甚至提升模型精度,这直接降低了企业部署AI的门槛。

同时,主动学习也适合在线学习和模型迭代场景——当新数据源源不断到来时,模型只从中抽取真正需要人看的样本,大幅减少人工审核的疲劳度和延迟。这使得它在工业界迅速成为数据效率提升的关键技术之一。

核心逻辑

主动学习的循环通常包含四个步骤:初始模型使用少量标注数据训练;然后模型对大量未标注数据计算每个样本的“不确定性”或“信息量”(例如预测概率最接近0.5的样本);选择最有价值的一个或多个样本交给人工标注;将新标注数据加入训练集,重新训练模型。重复这个过程直到满足停止条件(如标注预算用尽或模型性能达标)。

常用的查询策略包括不确定性采样(选取预测概率最低的样本)、委员会查询(多个模型投票最不一致的样本)、以及预期模型变化最大化(选取能让模型更新最大的样本)。这些策略的核心目标都是让每一次标注投入获得最大的模型收益。

常见场景

需要注意的是,主动学习并不适用于所有情况。当初始模型极差时,它可能反复挑选离群点或噪声样本,导致训练停滞。因此实践中常先使用少量随机样本预热模型,再启动主动学习策略。

容易混淆的点

主动学习与半监督学习常被混淆:半监督学习利用大量无标签数据通过自训练、一致性正则化等方式直接提升模型,不需要人工介入;而主动学习必须依赖人机交互,核心是“选择哪些样本让人标”。两者可以互补,但运作模式完全不同。

另一个常见误区是将主动学习等同于“主动采集新数据”。实际上主动学习只关注对已有未标注池的选择,并不生成新数据。它也不同于主动数据增强(如图像旋转、裁剪)——后者不涉及人工标注成本。

来源:AI 热词解释频道整理
上一篇Curriculum Learning 课程学习:让AI像人类一样由易到难地学习 下一篇Weak Supervision:用不完美数据训练高质量模型

相关热词

继续查看关联概念解释。

最新热词

最近新增和整理过的热词内容。