语言模型的两大流派
谈到语言模型,业界其实主要围绕两大技术路线展开:一类是基于规则的文法型模型,另一类则是当下主流的基于统计的概率模型。
基于规则的文法型语言模型
这类模型可以说带着浓厚的“古典”色彩,其核心是一套由语言学家手工编制的文法规则。这些规则凝聚了人类对语言结构和领域知识的深刻理解,试图让机器像人一样“懂得”语法。但问题很快就浮现了:语言在真实世界中是如此灵活和庞杂,依赖人工规则的系统,面对海量、多变且充满例外的真实文本时,难免力不从心,扩展性遇到了瓶颈。
基于统计的语言模型
于是,为了突破这一局限,基于统计的语言模型登上了舞台。思路的转变是关键:不再纠结于句子“是否合乎文法”,而是转而计算一个句子在现实语言中“出现的可能性有多大”。这就好比从“判断对错”升级到了“评估概率”。
这类模型本质上是概率模型,计算机通过训练数据学习其中的概率参数,从而对语言进行量化评估。目前常用的统计模型有几员“老将”:N元文法模型(N-gram)、隐马尔科夫模型(HMM),以及最大熵模型等。它们各自从不同角度对语言的序列规律进行建模,共同推动着自然语言处理技术向前发展。
了解这两个流派的特点与演变,是深入理解现代语言技术的基础。希望这次的梳理能为您提供一个清晰的脉络。
