2022年11月,ChatGPT横空出世,两个月用户破亿,这个速度在消费级应用史上从未有过。风光背后,很少有人注意到,支撑它的底层技术——大语言模型(LLM),已经默默走过了五年多的演进之路。从2018年的GPT-1到今天万众瞩目的GPT-4,OpenAI究竟是怎么一步步走到今天的?

今天,我们把时间线拉回到起点,看看这个家族谱系。
模型 | 发布时间 | 参数量 | 关键创新 |
|---|---|---|---|
GPT-1 | 2018年6月 | 1.17亿 | 开创性的预训练+微调范式 |
GPT-2 | 2019年2月 | 15亿 | 更大模型、Zero-shot能力初现 |
GPT-3 | 2020年6月 | 1750亿 | In-Context Learning、Few-shot |
ChatGPT | 2022年11月 | 未公开 | RLHF对齐、对话优化 |
GPT-4 | 2023年3月 | 未公开 | 多模态、复杂推理 |
GPT-1:一切的起点(2018)
2018年之前,NLP领域的主流是监督学习——每个任务都需要大量标注数据。机器翻译需要百万级平行语料,情感分析需要人工标注的句子……这种模式又贵又慢。OpenAI在论文《Improving Language Understanding by Generative Pre-Training》中提出了一个大胆的想法:能不能先让模型通过无监督方式学习语言通用知识,然后再用小样本微调到具体任务?这就是GPT-1的核心思想:Language Modeling + Transfer Learning。
技术上,GPT-1用了12层Transformer Decoder,训练数据是BookCorpus(7000本书),参数量仅有1.17亿。在预训练基础上加一个任务输出层就能微调。别看它小,它证明了“预训练+微调”范式的可行性,为后续所有LLM奠基。
GPT-2:走向更大的世界(2019)
GPT-1的成功让OpenAI开始思考:如果模型足够大、数据足够多,LLM会不会直接具备Zero-shot能力——不需要微调,给个prompt就能干活?于是他们开始堆参数。GPT-2参数量达到15亿(比GPT-1大了10倍),训练数据来自800万网页(WebText,40GB)。2019年2月发布时,OpenAI发现GPT-2居然能在写作文、问答等任务上直接输出不错的答案,虽然效果参差不齐,但这个方向被验证了。
另一个有意思的点是,因为担心被滥用,OpenAI最初没有公开完整权重,后来才分阶段放出——这后来也成了开源社区的转折点。
GPT-3:规模法则的胜利(2020)
GPT-3的发布是一次真正意义上的震撼。1750亿参数(比GPT-2大了100多倍),训练数据来自CommonCrawl、WebText、Wikipedia等,总量45TB,训练成本据估算约460万美元。它最核心的创新是In-Context Learning:以前的模型需要若干示例(Few-shot)才能学习任务,但GPT-3可以在Zero-shot下直接理解指令。比如你输入“你是一个翻译专家。把下面句子翻译成中文:Hello, how are you?”,它直接输出“你好,你好吗?”——无需微调,无需示例,只要在prompt里给出指令。
更重要的是,OpenAI在论文《Language Models are Few-Shot Learners》中验证了规模法则(Scaling Law):模型性能随着参数、数据量、计算量的增加而幂律提升。这条规律后来成为所有大模型厂商拼命“暴力堆参数”的理论依据。
GPT-3.5与ChatGPT:对齐的胜利(2022)
GPT-3能力很强,但输出“有毒”、有害信息的问题也很突出。怎么让模型“听话”?答案是RLHF(Reinforcement Learning from Human Feedback)。具体来说分三步:第一步,人类标注员写出高质量问答对,微调GPT-3(SFT);第二步,训练一个奖励模型来评估“什么是好答案”;第三步,用PPO强化学习优化LLM,让它产出更符合人类偏好的回答。经过RLHF后,ChatGPT学会了遵循指令、拒绝有害请求、承认错误,甚至会在不知道答案时说“不知道”——这些能力让对话体验有了质的飞跃。
GPT-4:多模态与复杂推理(2023)
GPT-4的核心升级包括:多模态支持图像输入,能看懂图片内容;在SAT、GRE、律师考试等测试中超过90%的人类考生;更精确地遵循复杂指令;有害内容大幅减少。至于参数规模,OpenAI选择不公开,有传言说超过1万亿。但不管数字多大,GPT-4证明了继续扩大规模+对齐优化依然是有效方向。
时间线总结
2018.06 GPT-1 (117M) → 预训练+微调范式
2019.02 GPT-2 (1.5B) → Zero-shot潜力
2020.06 GPT-3 (175B) → In-Context Learning
2022.11 ChatGPT → RLHF对齐人类
2023.03 GPT-4 → 多模态+复杂推理
我们能学到什么?
第一,规模的力量。从1亿到1750亿,模型能力发生了质变,规模法则至今被验证不误。第二,预训练范式的胜利——先学通用知识,再学专用技能,这个思路在AI领域被证明极其有效。第三,对齐的重要性。模型能力不等于模型价值,让AI“听话”和让AI“能干”同样重要。最后,开源与封闭的博弈也值得我们思考:GPT-2公开权重推动了整个开源LLM社区的繁荣,而GPT-4选择封闭也带来了商业价值——这也许是OpenAI在技术路线之外的另一重智慧。
