每天学点AI五个阶段了解大模型发展史
要理解自然语言处理(NLP)的发展脉络,最好的方式就是顺着时间线往回看,看看这门技术是如何一步步从“咿呀学语”进化到今天的“博古通今”。从最初的规则驱动,到后来的统计学习,再到如今的深度学习和大模型,每一步都踩在了时代的节点上。
20世纪50年代
那个年代,NLP还是个刚学步的小孩,靠的是一套由语言学专家手工编写的规则和词典。这些规则事无巨细地规定了语法、语义和句法结构,就像一个老派的语文老师,拿着一本厚厚的教案,告诉计算机每种句式该怎么分析。
比如,一个简单的陈述句会被严格标记为“主语 + 谓语 + 宾语”的结构。所有句子都得按这套规矩来。这就好比小时候学说话,需要一个字一个字地学,学完单词再学语法,过程极其繁琐,但却是那条路线上最朴实的方法。
20世纪70年代
随着计算能力的提升和数据量的积累,事情开始起变化。到了70年代,NLP开始从“规则派”转向“统计派”。研究人员不再试图把所有规则都写死,而是把大量文本数据喂给统计模型,让模型自己去捕捉语言模式。
这就像你长大了,不再死记硬背语法书,而是通过听身边人说话来学习新词汇和表达。统计方法特别看重词语之间的共现关系,比如“苹果”和“吃”同时出现的概率高,那它们之间很可能就有关系。模型通过这种概率推断来完成各种语言处理任务。不过,这个阶段有一个局限——对于当时的模型来说,每个单词仍然是独立的,彼此之间没什么“交情”。
2013年
转机发生在2013年。这一年,基于嵌入(embedding)的方法被发明出来,这可以说是NLP领域的一个“新大陆”。它能将词语、短语甚至句子映射到高维的连续向量空间中。这些向量有个神奇的本领——能捕捉词语之间的语义关系。
怎么理解呢?就好比我们用表情符号(
相关攻略
自然语言处理历经五个阶段:20世纪50年代规则驱动,70年代统计学习,2013年词嵌入与编码器-解码器问世,2017年Transformer模型诞生,2022年大模型涌现。参数量达百亿千亿级,推动技术突破。
9 月 13 日,在 2025 Inclusion·外滩大会AI开源见解论坛上,蚂蚁开源联合Inclusion AI 发布了全新的《全球大模型开源开发生态全景与趋势告》。这是报告5月首次发布后的2
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





