本次查询:Domain Adaptation
中文解释:领域自适应
常见场景:计算机视觉 / 自然语言处理 / 推荐系统中的跨场景应用
一句话解释
Domain Adaptation(领域自适应)是一种让机器学习模型在数据分布发生变化的新环境(目标域)中也能表现良好的技术,通常不需要或只需少量来自目标域的标注数据。
为什么会被关注
实际应用中,训练数据(源域)与线上真实数据(目标域)往往存在分布差异,导致模型性能严重下降。比如用晴天照片训练的自动驾驶模型,在雨雪天会失灵。
重新标注大量目标域数据成本极高,甚至不可能。领域自适应提供了低成本、高效率的解决方案,让已有模型快速适配新场景,因此成为工业界和学术界的研究热点。
核心逻辑
核心思路是:通过对抗、度量学习或重构等方式,让模型提取出跨领域不变的特征,同时剔除领域相关的干扰信息。
常见的做法包括:最小化源域和目标域特征分布的距离(如MMD、Wasserstein距离),或用域鉴别器迫使特征编码器无法区分数据来自哪个域,从而学出域无关表示。
常见场景
计算机视觉:用合成数据训练的模型适配真实照片(如游戏场景→现实道路)。
自然语言处理:在通用语料上训练的BERT应用到特定领域(如医疗、法律)时的语义偏移。
推荐系统:用户行为数据从小众市场迁移到大众市场,或从旧版APP迁移到新版APP。
容易混淆的点
领域自适应 ≠ 领域泛化:前者在推理时能访问部分目标域无标注数据,后者完全禁止看到目标域数据。
领域自适应 ≠ 自监督学习:虽然常结合自监督预训练,但自监督学习不专门解决领域迁移问题。
也不是简单粗暴地合并数据:直接混合源域和目标域数据而不对齐分布,反而可能引入噪声降低效果。
