自编码模型与自回归模型:两者差异究竟在哪?
在自然语言处理和机器学习领域,自编码模型和自回归模型堪称两个重量级的选手。它们看似都冲着“预测”去,但内里的设计思路和训练方式,其实大不相同。
预训练方式:一个看方向,一个补缺口
先聊聊自回归模型。它的工作方式很像是我们平时的阅读或写作:要么从前向后,根据上文来推测下一个词会是什么;要么从后向前,依据下文来反推上一个词。这种单向的预测模式,决定了它只能利用单侧(上文或下文)的语境信息,就像是一艘沿着固定航向行驶的船。
那么,自编码模型呢?它的玩法就有点意思了。它不是让你顺着猜,而是干脆在输入的句子中随机“挖掉”一个词(我们常称之为“掩码”或“遮盖”),然后要求模型利用这个词周围——也就是全部的上下文信息——来猜出这个被掩盖的词究竟是什么。这个“挖了再补”的过程,本质上是一种降噪(denosing)学习。模型必须理解整个句子的完整语义和结构,才能准确填补那个缺失的片段。
所以说到底,两者在预训练的核心机制上就分道扬镳了。自回归模型专注于利用单向的、顺序的上下文信息进行预测;而自编码模型则通过随机掩盖和全局上下文预测的任务,来完成对语言深度理解的降噪训练。
